May, 2024

RLHF 工作流程:从奖励建模到在线强化学习

TL;DR我们介绍了在线迭代强化学习(RLHF)的工作流程,通过构建偏好模型和使用监督微调和迭代 RLHF,我们在大规模语言模型方面取得了令人印象深刻的性能,通过详细的实现指南,我们提供了一种易于复现的在线迭代 RLHF 方法。