Apr, 2024

DPO 相对于 PPO 在 LLM 对齐上是否更优?一项全面研究

TL;DR通过理论和实证研究,本文探究了直接偏好优化(DPO)和邻近策略优化(PPO)方法在强化学习与大型语言模型对齐中的算法特性,并发现 PPO 在细化语言模型时表现出色,超越其它方法,并在挑战性的代码竞赛中取得了最先进的结果。