Apr, 2024

DPO 相遇 PPO:针对 RLHF 的强化标记优化

TL;DR在这篇研究中,我们介绍了一种将人类反馈引入加强学习的框架,并提出了一种基于标记级别信息的算法,通过学习标记级别的奖励函数并进行策略优化,从而有效地解决了传统深度强化学习中的挑战。