Aug, 2024

减少DPO拒绝惩罚以增加训练的鲁棒性

TL;DR本研究解决了现有直接偏好优化(DPO)方法在训练大型语言模型时对人类偏好的对齐问题。通过对DPO中$\beta$机制的分析和改进,提出了MinorDPO方法,使其在偏好优化过程中更稳定,并与原始强化学习算法更好地对齐。该方法的显著发现是可以提高训练的鲁棒性,从而增强模型性能。