BriefGPT.xyz
Ask
alpha
关键词
dpo with an offset
搜索结果 - 1
使用偏移量的直接偏好优化
直接偏好优化(DPO)是一种成功调优策略,用于将大型语言模型与人类偏好对齐,而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的 DPO(ODPO)的 DPO 泛化方法,通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量,以在
→
PDF
5 months ago
Prev
Next