Jun, 2024

3D - 属性:DPO 的挑战和前进路径

TL;DR通过对 Direct Preference Optimization(DPO)的实证研究和与 RLHF-PPO 的系统比较,我们发现 DPO 的三个学习结果特征,即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上,我们提出了简单的正则化方法来缓解这些问题,提高 DPO 的训练稳定性和最终性能,同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。