May, 2024

价值激励偏好优化:在线和离线 RLHF 的统一方法

TL;DR人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一,本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化(VPO),实现了对奖励函数的不确定性估计,并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。