BriefGPT.xyz
Ask
alpha
关键词
goal-directed agents
搜索结果 - 1
LMRL Gym:基于语言模型的多轮强化学习基准
大型语言模型和强化学习的协作为创建目标导向代理提供了潜力,但需要稳定可靠的强化学习算法。本研究引入了 LMRL-Gym 评估多轮 RL 针对 LLMs 的基准,以及一个包含基本工具包的开源研究框架,用于开始进行多轮 RL 的离线值基和策略基
→
PDF
7 months ago
Prev
Next