Feb, 2024

Smaug:使用 DPO-Positive 修复优化偏好的故障模式

TL;DR通过使用 Direct Preference Optimisation (DPO) 方法对大型语言模型 (LLMs) 进行优化,在相关任务如推理、摘要和对齐等方面显著提高性能。研究表明当两个完成的选择之间的相对概率增加时,标准的 DPO 损失会导致模型对首选示例的可能性减少,而通过使用 DPO-Positive (DPOP) 的新的损失函数和训练过程可以避免这种情况,并且在各种数据集和任务上都优于 DPO。