全部 AI 动态
AI 相关资讯全量信息流
4月16日
00:07
00:07
4月15日
00:03
00:03
00:03
4月14日
01:16
01:16
01:16
8月28日
03:56
51
研究探讨了基于强化学习的LLM游戏后训练能否泛化到其他任务。在相同任务族内(如6×6推箱子泛化至8×8版本),训练带来了高达56%的性能提升。但在跨领域任务中,效果有限或不稳定:Blocksworld有小幅提升,WebShop有约6%但不稳定,GSM8K则无改善。研究团队为此提出了GRL框架,这是一个以智能体为中心的多轮强化学习框架,旨在高度定制LLM与环境的交互,以系统研究泛化能力。