BriefGPT.xyz
Feb, 2024
使用偏移量的直接偏好优化
Direct Preference Optimization with an Offset
HTML
PDF
Afra Amini, Tim Vieira, Ryan Cotterell
TL;DR
直接偏好优化(DPO)是一种成功调优策略,用于将大型语言模型与人类偏好对齐,而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的DPO(ODPO)的DPO泛化方法,通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量,以在调优过程中有选择地处理偏好对。实验结果表明,ODPO在对齐语言模型方面明显优于传统的DPO方法,尤其是在偏好对数量有限的情况下。
Abstract
direct preference optimization
(DPO) is a successful
fine-tuning strategy
for aligning large
language models
with human preferences withou
→