DPO 和 PPO 的剥离：揭示从偏好反馈中学习的最佳实践

Jun, 2024

DPO 和 PPO 的剥离：揭示从偏好反馈中学习的最佳实践

Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback

Hamish Ivison, Yizhong Wang, Jiacheng Liu, Zeqiu Wu, Valentina Pyatkin...

TL;DR从偏好反馈学习的四个核心方面：偏好数据，学习算法，奖励模型和政策训练提示，我们系统地研究了这些组件对下游模型性能的影响，并提出了一种强偏好反馈学习的方法。研究发现，偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。

Abstract

Learning from preference feedback has emerged as an essential step for improving the generation quality and performance of modern language models (LMs). Despite its widespread use, the way preference-based learni

preference feedback language models learning algorithm reward model policy training prompts

发现论文，激发创造

可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

通过引入在随机偏好翻转情况下进行策略优化的总体框架，我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比，可以显著降低偏好标签噪音对学习策略的影响。

Mar, 2024

3D - 属性：DPO 的挑战和前进路径

通过对 Direct Preference Optimization（DPO）的实证研究和与 RLHF-PPO 的系统比较，我们发现 DPO 的三个学习结果特征，即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上，我们提出了简单的正则化方法来缓解这些问题，提高 DPO 的训练稳定性和最终性能，同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。

Jun, 2024

DPO 相对于 PPO 在 LLM 对齐上是否更优？一项全面研究

通过理论和实证研究，本文探究了直接偏好优化（DPO）和邻近策略优化（PPO）方法在强化学习与大型语言模型对齐中的算法特性，并发现 PPO 在细化语言模型时表现出色，超越其它方法，并在挑战性的代码竞赛中取得了最先进的结果。

Apr, 2024

D2PO：带鉴别器引导的 DPO 及响应评估模型

我们提出了 D2PO，即鉴别器引导的 DPO，在线设置下通过收集偏好来训练策略，同时使用鉴别器模型对回应进行评估，以获得高质量的输出和更高的效率。

May, 2024

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

RLHF 中的策略优化：偏离偏好数据的影响

通过对直接优化偏好和基于奖励模型的策略优化的比较，该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能，并且 RMB-PO + 方法表现最佳。

Dec, 2023

Step-DPO：Step-wise 偏好优化长链推理的 LLMs

我们提出了一种名为 Step-DPO 的简单、有效和数据高效的方法，它将每个推理步骤作为单位进行优化，而不是对答案进行整体评估。通过构建 Step-DPO 的数据集，我们观察到自动生成的数据比人类或 GPT-4 生成的数据更有效，我们的发现表明，只需 10K 个偏好数据对和少于 500 个 Step-DPO 训练步骤，即可使具有超过 70B 参数的模型在 MATH 方面的准确性提高近 3%。值得注意的是，将 Step-DPO 应用于 Qwen2-72B-Instruct 时，在 MATH 和 GSM8K 的测试集上分别达到 70.8% 和 94.0% 的分数，超过了一系列闭源模型，包括 GPT-4-1106、Claude-3-Opus 和 Gemini-1.5-Pro。

Jun, 2024

Curry-DPO: 借助课程学习和排序偏好增强对齐性

使用 Curry-DPO 方法，从容法从易到难地利用构建的多个优先配对数据进行 DPO 训练，相对于标准的单对 DPO 设置，在多个指标上表现出明显的性能提升。

Mar, 2024