sDPO：不要一次性使用您的数据

Mar, 2024

sDPO: Don't Use Your Data All at Once

Dahyun Kim, Yungi Kim, Wonho Song, Hyeonwoo Kim, Yunsu Kim...

TL;DR随着大型语言模型的发展，与人类偏好的对齐变得越来越重要。我们提出了逐步 DPO（sDPO），这是最近流行的直接偏好优化（DPO）的扩展。该方法涉及将可用的偏好数据集划分并以逐步方式利用，而非一次性使用。我们证明这种方法在 DPO 训练框架中利用了更精确对齐的参考模型。此外，sDPO 训练出的最终模型具有更好的性能，甚至超过了其他具有更多参数的流行大型语言模型。

Abstract

As development of large language models (LLM) progresses, aligning them with human preferences has become increasingly important. We propose stepwise dpo (sDPO), an extension of the recently popularized

large language models alignment tuning direct preference optimization stepwise dpo reference models

发现论文，激发创造

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

Step-DPO：Step-wise 偏好优化长链推理的 LLMs

我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法，它将每个推理步骤作为单位进行优化，而不是对答案进行整体评估。通过构建 Step-DPO 的数据集，我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效，我们的发现表明，只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤，即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是，将 Step-DPO 应用于 Qwen2-72B-Instruct 时，在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数，超过了一系列闭源模型，包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。

Jun, 2024

分析和理解 DPO 的局限性：理论视角

直接偏好优化 (DPO) 通过从成对偏好数据中推导奖励信号，已被证明在与人类偏好的对齐大型语言模型 (LLMs) 方面具有有效性。为了克服其在 SFT 的有效性和向人类首选响应的学习能力方面的敏感性，导致性能不够令人满意，我们提供了一个使用场论的分析框架来分析 DPO 的优化过程的理论基础，发现 DPO 损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快，这为了解 DPO 在相关研究实验中发现的限制提供了理论洞察，从而为其改进奠定了基础。

Apr, 2024

使用偏移量的直接偏好优化

直接偏好优化（DPO）是一种成功调优策略，用于将大型语言模型与人类偏好对齐，而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的 DPO（ODPO）的 DPO 泛化方法，通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量，以在调优过程中有选择地处理偏好对。实验结果表明，ODPO 在对齐语言模型方面明显优于传统的 DPO 方法，尤其是在偏好对数量有限的情况下。

Feb, 2024

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

mDPO: 多模态大型语言模型的条件偏好优化

通过比较性实验，我们识别出多模态偏好优化中的无条件偏好问题，并提出 mDPO，一种多模态 DPO 目标，通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点，强制奖励对于选择的回答是正面的，从而避免相对偏好优化的内在问题。在两种不同规模的多模态 LLM 和三个广泛使用的基准测试中进行的实验表明，mDPO 在处理多模态偏好优化的无条件偏好问题上是有效的，并在模型性能方面取得了显著改进，尤其是在减少幻觉方面。

Jun, 2024

3D - 属性：DPO 的挑战和前进路径

通过对 Direct Preference Optimization（DPO）的实证研究和与 RLHF-PPO 的系统比较，我们发现 DPO 的三个学习结果特征，即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上，我们提出了简单的正则化方法来缓解这些问题，提高 DPO 的训练稳定性和最终性能，同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。

Jun, 2024

Smaug：使用 DPO-Positive 修复优化偏好的故障模式

通过使用 Direct Preference Optimisation (DPO) 方法对大型语言模型 (LLMs) 进行优化，在相关任务如推理、摘要和对齐等方面显著提高性能。研究表明当两个完成的选择之间的相对概率增加时，标准的 DPO 损失会导致模型对首选示例的可能性减少，而通过使用 DPO-Positive (DPOP) 的新的损失函数和训练过程可以避免这种情况，并且在各种数据集和任务上都优于 DPO。

Feb, 2024

通过合成数据对 LMLs 进行行为对齐的优化提炼直接偏好优化

提出一种称为 “rDPO” 的方法，通过自我批评引导创建合成数据，并利用广义的 DPO 损失函数蒸馏为学生 LLM，其中使用额外的外部奖励模型提高合成数据质量，从而改善大型语言模型的行为对齐。

Feb, 2024

基于步骤误差控制的 DPO：利用逐步误差提升数学推理

提出了一种名为 Step-Controlled DPO (SCDPO) 的方法，在大型语言模型 (LLM) 上应用全自动逐步错误监督，从而改善其在推理和对齐等下游任务上的性能。以此方法应用于数学解决方案，通过在 DPO 训练中采用负样本，SCDPO 能够更好地调整模型以理解推理错误并输出准确的推理步骤。该方法在不同的 SFT 模型上得到了改进，并展示了其在识别数学解决方案错误方面的有效性。最终应用 SCDPO 于一个 InternLM2-20B 模型，取得了 88.5% 的 GSM8K 得分和 58.1% 的 MATH 得分，与所有其他开源 LLM 相媲美，展示了这一方法的巨大潜力。

Jun, 2024