Jun, 2024
通过下采样 KL 散度消除直接偏好优化的有偏长度依赖
Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence
Junru Lu, Jiazheng Li, Siyu An, Meng Zhao, Yulan He...
TL;DR通过引入名为 SamPO 的有效降采样方法,解决了直接偏好优化 (Direct Preference Optimization) 算法中的过度优化问题 (verbosity),并实现了通过去偏的奖励实现比 DPO 提高 5% 至 12% 的改进。