Oct, 2023
对齐上界:从人类反馈中的强化学习目标不匹配
The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback
TL;DR用来自人类反馈的强化学习技术已经成为一个强大的工具,使得大型语言模型在复杂环境中更容易引导,更具能力。然而,由于奖励模型、策略模型和评估模型之间的不一致性,存在目标不匹配的问题。本文探讨了这个问题的原因,并回顾了相关的模型学习和强化学习文献。同时,讨论了激励解匹配之后的解决方案,以促进进一步的研究,从而使未来的语言模型更加准确地遵循用户的指令,提供更安全和有用的服务。