Nov, 2023

LMRL Gym:基于语言模型的多轮强化学习基准

TL;DR大型语言模型和强化学习的协作为创建目标导向代理提供了潜力,但需要稳定可靠的强化学习算法。本研究引入了 LMRL-Gym 评估多轮 RL 针对 LLMs 的基准,以及一个包含基本工具包的开源研究框架,用于开始进行多轮 RL 的离线值基和策略基 RL 方法。该基准由 8 个不同的语言任务组成,需要多轮语言交互,涵盖开放对话和文本游戏的多种任务。