Apr, 2024

分析和理解 DPO 的局限性:理论视角

TL;DR直接偏好优化 (DPO) 通过从成对偏好数据中推导奖励信号,已被证明在与人类偏好的对齐大型语言模型 (LLMs) 方面具有有效性。为了克服其在 SFT 的有效性和向人类首选响应的学习能力方面的敏感性,导致性能不够令人满意,我们提供了一个使用场论的分析框架来分析 DPO 的优化过程的理论基础,发现 DPO 损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快,这为了解 DPO 在相关研究实验中发现的限制提供了理论洞察,从而为其改进奠定了基础。