Feb, 2024

Reflect-RL: 用于语言模型的两人在线强化学习微调

TL;DR使用在线强化学习引导反射模型辅助多轮交互决策中的预训练语言模型,通过单提示动作枚举和课程学习来提高性能。实验证实了 Reflect-RL 在在线学习中的有效性,并显示其在性能上优于通常的 SFT 和无反射的在线 RL 方法。