Feb, 2024

使用偏移量的直接偏好优化

TL;DR直接偏好优化(DPO)是一种成功调优策略,用于将大型语言模型与人类偏好对齐,而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的 DPO(ODPO)的 DPO 泛化方法,通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量,以在调优过程中有选择地处理偏好对。实验结果表明,ODPO 在对齐语言模型方面明显优于传统的 DPO 方法,尤其是在偏好对数量有限的情况下。