分析和理解 DPO 的局限性：理论视角

Apr, 2024

分析和理解 DPO 的局限性：理论视角

Towards Analyzing and Understanding the Limitations of DPO: A Theoretical Perspective

Duanyu Feng, Bowen Qin, Chen Huang, Zheng Zhang, Wenqiang Lei

TL;DR直接偏好优化 (DPO) 通过从成对偏好数据中推导奖励信号，已被证明在与人类偏好的对齐大型语言模型 (LLMs) 方面具有有效性。为了克服其在 SFT 的有效性和向人类首选响应的学习能力方面的敏感性，导致性能不够令人满意，我们提供了一个使用场论的分析框架来分析 DPO 的优化过程的理论基础，发现 DPO 损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快，这为了解 DPO 在相关研究实验中发现的限制提供了理论洞察，从而为其改进奠定了基础。

Abstract

direct preference optimization (DPO), which derives reward signals directly from pairwise preference data, has shown its effectiveness on aligning Large Language Models (LLMs) with human preferences. Despite its

direct preference optimization pairwise preference data large language models field theory dpo loss function

发现论文，激发创造

使用偏移量的直接偏好优化

直接偏好优化（DPO）是一种成功调优策略，用于将大型语言模型与人类偏好对齐，而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的 DPO（ODPO）的 DPO 泛化方法，通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量，以在调优过程中有选择地处理偏好对。实验结果表明，ODPO 在对齐语言模型方面明显优于传统的 DPO 方法，尤其是在偏好对数量有限的情况下。

Feb, 2024

3D - 属性：DPO 的挑战和前进路径

通过对 Direct Preference Optimization（DPO）的实证研究和与 RLHF-PPO 的系统比较，我们发现 DPO 的三个学习结果特征，即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上，我们提出了简单的正则化方法来缓解这些问题，提高 DPO 的训练稳定性和最终性能，同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。

Jun, 2024

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

sDPO：不要一次性使用您的数据

随着大型语言模型的发展，与人类偏好的对齐变得越来越重要。我们提出了逐步 DPO（sDPO），这是最近流行的直接偏好优化（DPO）的扩展。该方法涉及将可用的偏好数据集划分并以逐步方式利用，而非一次性使用。我们证明这种方法在 DPO 训练框架中利用了更精确对齐的参考模型。此外，sDPO 训练出的最终模型具有更好的性能，甚至超过了其他具有更多参数的流行大型语言模型。

Mar, 2024

可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

通过引入在随机偏好翻转情况下进行策略优化的总体框架，我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比，可以显著降低偏好标签噪音对学习策略的影响。

Mar, 2024

Smaug：使用 DPO-Positive 修复优化偏好的故障模式

通过使用 Direct Preference Optimisation (DPO) 方法对大型语言模型 (LLMs) 进行优化，在相关任务如推理、摘要和对齐等方面显著提高性能。研究表明当两个完成的选择之间的相对概率增加时，标准的 DPO 损失会导致模型对首选示例的可能性减少，而通过使用 DPO-Positive (DPOP) 的新的损失函数和训练过程可以避免这种情况，并且在各种数据集和任务上都优于 DPO。

Feb, 2024

在线 DPO：在线直接偏好优化与快慢追踪

通过在线快慢追逐 DPO (OFS-DPO) 来优化大型语言模型（LLM）与人类价值观的一致性，通过引入 LoRA 模块组合策略和新的正则化项来解决跨领域的忘记问题。

Jun, 2024

Step-DPO：Step-wise 偏好优化长链推理的 LLMs

我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法，它将每个推理步骤作为单位进行优化，而不是对答案进行整体评估。通过构建 Step-DPO 的数据集，我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效，我们的发现表明，只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤，即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是，将 Step-DPO 应用于 Qwen2-72B-Instruct 时，在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数，超过了一系列闭源模型，包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。

Jun, 2024

语言代理的多轮偏好直接优化

通过使用 DMPO 损失函数，对多回合任务中的大型语言模型（LLMs）进行适应，可以优化强化学习（RL）目标并提供理论解释。实验证明 DMPO 损失的有效性和优越性。

Jun, 2024