Jun, 2024

通过下采样 KL 散度消除直接偏好优化的有偏长度依赖

TL;DR通过引入名为 SamPO 的有效降采样方法,解决了直接偏好优化 (Direct Preference Optimization) 算法中的过度优化问题 (verbosity),并实现了通过去偏的奖励实现比 DPO 提高 5% 至 12% 的改进。