直接偏好优化的数据集、理论、变体和应用的综合调查

Oct, 2024

直接偏好优化的数据集、理论、变体和应用的综合调查

A Comprehensive Survey of Datasets, Theories, Variants, and Applications in Direct Preference Optimization

Wenyi Xiao, Zechuan Wang, Leilei Gan, Shuai Zhao, Wanggui He...

TL;DR本研究解决了现有文献中对直接偏好优化（DPO）理论、变体和应用缺乏深入审查的问题。通过对DPO的现有研究进行分类，并提出未来研究方向，本文提供了对模型与人类偏好对齐的全面理解。研究发现DPO作为一种无强化学习的方法，对提升模型对齐策略具有重要影响。

Abstract

With the rapid advancement of large language models (LLMs), aligning policy models with Human Preferences has become increasingly critical. Direct Preference Optimization (DPO) has emerged as a promising approach

发现论文，激发创造

面向语言模型对齐的高效准确优化

我们提出了一种高效的精确优化方法(EXO)，证明了它在与RL算法同向渐进地优化策略参数函数上是可保证的，并通过绕过与RL算法相关的复杂性来实现高效优化。我们通过理论和实证分析将我们的方法与DPO进行比较，并进一步展示了在现实人类偏好数据上我们方法的优势。

Feb, 2024

使用偏移量的直接偏好优化

直接偏好优化（DPO）是一种成功调优策略，用于将大型语言模型与人类偏好对齐，而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的DPO（ODPO）的DPO泛化方法，通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量，以在调优过程中有选择地处理偏好对。实验结果表明，ODPO在对齐语言模型方面明显优于传统的DPO方法，尤其是在偏好对数量有限的情况下。

Feb, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析RLHF和DPO的稳定性和鲁棒性，我们提出了一种新方法MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对DPO进行训练，然后在一个具有DPO模型作为参考模型的困难集上进行RLHF。实验在两个公开的对齐数据集上进行，即HH-RLHF和TLDR，展示了MPO的有效性，无论是在GPT4上还是人类评估上。

Mar, 2024

Mallows-DPO: 用偏好离散来优化您的LLM

Mallows-DPO是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法(DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

直接优化偏好的新准则

基于直接偏好优化（DPO）本身存在未解决的缺陷，此研究提出一种代替的DPO损失函数，以缓解低质量响应和约束处理方面的权衡问题，并通过实证结果验证了分析的重要方面。

Jul, 2024

减少DPO拒绝惩罚以提高训练鲁棒性

本研究解决了大型语言模型在与人类偏好对齐过程中的不足，提出了MinorDPO作为强化学习的改进版本。通过对DPO中β参数的分析，揭示了其与传统RL算法的语法差异及其潜在短板，最终表明MinorDPO能提高优化过程的稳定性和鲁棒性。

Aug, 2024

减少DPO拒绝惩罚以增加训练的鲁棒性

本研究解决了现有直接偏好优化(DPO)方法在训练大型语言模型时对人类偏好的对齐问题。通过对DPO中$\beta$机制的分析和改进，提出了MinorDPO方法，使其在偏好优化过程中更稳定，并与原始强化学习算法更好地对齐。该方法的显著发现是可以提高训练的鲁棒性，从而增强模型性能。

Aug, 2024

α-DPO: 自适应奖励边界是直接偏好优化所需的

本研究解决了将大型语言模型与人类价值观对齐的计算效率和训练稳定性问题。提出的α-DPO是一种自适应偏好优化算法，通过引入动态奖励边界来平衡策略模型和参考模型，从而提供个性化的奖励边界。实证结果显示，α-DPO在多个模型设置中优于传统方法，证明其在大型语言模型对齐中的重要性和潜力。

Oct, 2024

α-DPO: 自适应奖励边界是直接偏好优化所需的

本研究针对大语言模型与人类价值观和意图对齐中存在的计算效率和训练稳定性的问题，提出了一种新的自适应偏好优化算法——α-DPO。通过引入动态奖励边界，α-DPO有效解决了现有方法的局限性，理论与实证结果均表明其在各模型设定下优于传统的直接偏好优化和简单偏好优化，显示出在大语言模型调优中的显著潜力。

Oct, 2024