8月28日
03:56
Hao AI Lab@haoailab
51
游戏强化学习训练能否提升LLM通用任务能力?

研究探讨了基于强化学习的LLM游戏后训练能否泛化到其他任务。在相同任务族内(如6×6推箱子泛化至8×8版本),训练带来了高达56%的性能提升。但在跨领域任务中,效果有限或不稳定:Blocksworld有小幅提升,WebShop有约6%但不稳定,GSM8K则无改善。研究团队为此提出了GRL框架,这是一个以智能体为中心的多轮强化学习框架,旨在高度定制LLM与环境的交互,以系统研究泛化能力。

智能体开源/仓库论文/研究