Sep, 2024

定向偏好优化中的长度去敏感化

TL;DR本研究针对直接偏好优化(DPO)在大语言模型中的过度优化冗长性的问题,提出了一种新的长度去敏感化方法LD-DPO。该方法通过解耦显式长度偏好与隐式偏好,提高了模型在训练中的学习效果,实验结果显示,与传统DPO相比,LD-DPO能够有效减少10-40%的输出长度,同时提升用户体验。