Mar, 2024

比较坏苹果和好橙子:通过联合偏好优化对齐大型语言模型

TL;DR通过联合指导 - 回应偏好数据进行大型语言模型训练,使用 DOVE 目标函数优化,可以显著提高 LLM 的对齐效果,并在总结和开放式对话数据集上分别提高 5.2% 和 3.3% 胜率。