3D - 属性：DPO 的挑战和前进路径 | BriefGPT

Jun, 2024

3D - 属性：DPO 的挑战和前进路径

3D-Properties: Identifying Challenges in DPO and Charting a Path Forward

Yuzi Yan, Yibo Miao, Jialian Li, Yipin Zhang, Jian Xie...

TL;DR通过对 Direct Preference Optimization（DPO）的实证研究和与 RLHF-PPO 的系统比较，我们发现 DPO 的三个学习结果特征，即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上，我们提出了简单的正则化方法来缓解这些问题，提高 DPO 的训练稳定性和最终性能，同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。

Abstract

Aligning large language models (LLMs) with human preference has recently gained tremendous attention, with the canonical yet costly rlhf-ppo and the simple and straightforward →

large language models direct preference optimization rlhf-ppo learning outcomes regularization methods

发现论文，激发创造

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

分析和理解 DPO 的局限性：理论视角

直接偏好优化 (DPO) 通过从成对偏好数据中推导奖励信号，已被证明在与人类偏好的对齐大型语言模型 (LLMs) 方面具有有效性。为了克服其在 SFT 的有效性和向人类首选响应的学习能力方面的敏感性，导致性能不够令人满意，我们提供了一个使用场论的分析框架来分析 DPO 的优化过程的理论基础，发现 DPO 损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快，这为了解 DPO 在相关研究实验中发现的限制提供了理论洞察，从而为其改进奠定了基础。

Apr, 2024

DPO 相对于 PPO 在 LLM 对齐上是否更优？一项全面研究

通过理论和实证研究，本文探究了直接偏好优化（DPO）和邻近策略优化（PPO）方法在强化学习与大型语言模型对齐中的算法特性，并发现 PPO 在细化语言模型时表现出色，超越其它方法，并在挑战性的代码竞赛中取得了最先进的结果。

Apr, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

DPO 和 PPO 的剥离：揭示从偏好反馈中学习的最佳实践

从偏好反馈学习的四个核心方面：偏好数据，学习算法，奖励模型和政策训练提示，我们系统地研究了这些组件对下游模型性能的影响，并提出了一种强偏好反馈学习的方法。研究发现，偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。

Jun, 2024

D2PO：带鉴别器引导的 DPO 及响应评估模型

我们提出了 D2PO，即鉴别器引导的 DPO，在线设置下通过收集偏好来训练策略，同时使用鉴别器模型对回应进行评估，以获得高质量的输出和更高的效率。

May, 2024

语言代理的多轮偏好直接优化

通过使用 DMPO 损失函数，对多回合任务中的大型语言模型（LLMs）进行适应，可以优化强化学习（RL）目标并提供理论解释。实验证明 DMPO 损失的有效性和优越性。

Jun, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

通过系统地结合拒绝采样和直接偏好优化方法，我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调，提高其与用户意图的一致性，并且胜过 RS、PPO 和 DPO 等现有方法。

Feb, 2024

mDPO: 多模态大型语言模型的条件偏好优化

通过比较性实验，我们识别出多模态偏好优化中的无条件偏好问题，并提出 mDPO，一种多模态 DPO 目标，通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点，强制奖励对于选择的回答是正面的，从而避免相对偏好优化的内在问题。在两种不同规模的多模态 LLM 和三个广泛使用的基准测试中进行的实验表明，mDPO 在处理多模态偏好优化的无条件偏好问题上是有效的，并在模型性能方面取得了显著改进，尤其是在减少幻觉方面。

Jun, 2024