Sep, 2024

自监督偏好优化:提升语言模型的偏好程度意识

TL;DR本研究解决了现有大语言模型在处理人类反馈时忽视偏好程度的问题。提出了一种新颖的自监督偏好优化框架(SPO),通过构建自监督偏好程度损失与对齐损失相结合,显著提升了模型理解人类偏好的能力。实验结果显示,SPO与现有偏好优化方法无缝结合,显著提升了性能,达到了最佳效果。