基于步骤误差控制的 DPO：利用逐步误差提升数学推理

Jun, 2024

基于步骤误差控制的 DPO：利用逐步误差提升数学推理

Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning

Zimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi...

TL;DR提出了一种名为 Step-Controlled DPO (SCDPO) 的方法，在大型语言模型 (LLM) 上应用全自动逐步错误监督，从而改善其在推理和对齐等下游任务上的性能。以此方法应用于数学解决方案，通过在 DPO 训练中采用负样本，SCDPO 能够更好地调整模型以理解推理错误并输出准确的推理步骤。该方法在不同的 SFT 模型上得到了改进，并展示了其在识别数学解决方案错误方面的有效性。最终应用 SCDPO 于一个 InternLM2-20B 模型，取得了 88.5% 的 GSM8K 得分和 58.1% 的 MATH 得分，与所有其他开源 LLM 相媲美，展示了这一方法的巨大潜力。

Abstract

direct preference optimization (DPO) has proven effective at improving the performance of large language models (LLMs) on downstream tasks such as →

direct preference optimization step-controlled dpo reasoning mathematical solutions large language models

发现论文，激发创造

Step-DPO：Step-wise 偏好优化长链推理的 LLMs

我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法，它将每个推理步骤作为单位进行优化，而不是对答案进行整体评估。通过构建 Step-DPO 的数据集，我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效，我们的发现表明，只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤，即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是，将 Step-DPO 应用于 Qwen2-72B-Instruct 时，在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数，超过了一系列闭源模型，包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。

Jun, 2024

sDPO：不要一次性使用您的数据

随着大型语言模型的发展，与人类偏好的对齐变得越来越重要。我们提出了逐步 DPO（sDPO），这是最近流行的直接偏好优化（DPO）的扩展。该方法涉及将可用的偏好数据集划分并以逐步方式利用，而非一次性使用。我们证明这种方法在 DPO 训练框架中利用了更精确对齐的参考模型。此外，sDPO 训练出的最终模型具有更好的性能，甚至超过了其他具有更多参数的流行大型语言模型。

Mar, 2024

数学推理的步骤级价值优化

我们引入了一种名为 Step-level Value Preference Optimization (SVPO) 的新算法，它使用蒙特卡洛树搜索（MCTS）自动对多步推理进行步骤级别的偏好注释，并从学习排序的角度训练一个显式值模型来复制隐式奖励模型的行为，从而提高大型语言模型的生成回报响应性能。实验证明，我们的方法在领域内和领域外的数学推理基准测试上达到了最先进的性能。

Jun, 2024

Smaug：使用 DPO-Positive 修复优化偏好的故障模式

通过使用 Direct Preference Optimisation (DPO) 方法对大型语言模型 (LLMs) 进行优化，在相关任务如推理、摘要和对齐等方面显著提高性能。研究表明当两个完成的选择之间的相对概率增加时，标准的 DPO 损失会导致模型对首选示例的可能性减少，而通过使用 DPO-Positive (DPOP) 的新的损失函数和训练过程可以避免这种情况，并且在各种数据集和任务上都优于 DPO。

Feb, 2024

分析和理解 DPO 的局限性：理论视角

直接偏好优化 (DPO) 通过从成对偏好数据中推导奖励信号，已被证明在与人类偏好的对齐大型语言模型 (LLMs) 方面具有有效性。为了克服其在 SFT 的有效性和向人类首选响应的学习能力方面的敏感性，导致性能不够令人满意，我们提供了一个使用场论的分析框架来分析 DPO 的优化过程的理论基础，发现 DPO 损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快，这为了解 DPO 在相关研究实验中发现的限制提供了理论洞察，从而为其改进奠定了基础。

Apr, 2024

3D - 属性：DPO 的挑战和前进路径

通过对 Direct Preference Optimization（DPO）的实证研究和与 RLHF-PPO 的系统比较，我们发现 DPO 的三个学习结果特征，即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上，我们提出了简单的正则化方法来缓解这些问题，提高 DPO 的训练稳定性和最终性能，同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。

Jun, 2024

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

步骤感知的偏好优化：在每个步骤中将偏好与去噪性能对齐

我们提出了一种 Step-aware Preference Optimization (SPO) 的方法，通过独立评估和调整每个步骤的去噪性能，在对生成图像进行偏好调整时改进了 Diffusion-DPO 方法的训练效率和图像质量。

Jun, 2024

D2PO：带鉴别器引导的 DPO 及响应评估模型

我们提出了 D2PO，即鉴别器引导的 DPO，在线设置下通过收集偏好来训练策略，同时使用鉴别器模型对回应进行评估，以获得高质量的输出和更高的效率。

May, 2024

可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

通过引入在随机偏好翻转情况下进行策略优化的总体框架，我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比，可以显著降低偏好标签噪音对学习策略的影响。

Mar, 2024