Oct, 2023

理解从人类偏好中学习的一般理论范式

TL;DR通过对人类偏好进行学习的强化学习(RLHF)部署依赖于两个重要的近似:第一个假设可以用点奖励替代成对偏好;第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近,直接偏好优化(DPO)被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而,该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是,我们推导出一种新的称为 ΨPO 的通用目标,用成对偏好表示,从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析(作为 ΨPO 的特殊情况),并确定它们的潜在缺陷。然后,我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况,在此情况下,我们可以推导出一个有效的优化过程,证明其性能保证,并在一些示例中展示其在实证上优于 DPO。