ICLROct, 2022

强化学习是否适用于自然语言处理:自然语言策略优化的基准、基线和构件

TL;DR本论文探讨了如何将预先训练的大型语言模型与人类偏好相对齐,提出了一个基于强化学习的模型优化库以及一套基于奖励函数的人类偏好的语言生成任务评估基准,并展示了所提出的自然语言策略优化算法相比于以往的策略梯度方法在具有更好的稳定性和性能。