定向偏好优化中的长度去敏感化

Sep, 2024

Length Desensitization in Directed Preference Optimization

Wei Liu, Yang Bai, Chengcheng Han, Rongxiang Weng, Jun Xu...

TL;DR本研究针对直接偏好优化（DPO）在大语言模型中的过度优化冗长性的问题，提出了一种新的长度去敏感化方法LD-DPO。该方法通过解耦显式长度偏好与隐式偏好，提高了模型在训练中的学习效果，实验结果显示，与传统DPO相比，LD-DPO能够有效减少10-40%的输出长度，同时提升用户体验。

Abstract

Direct Preference Optimization (DPO) is widely utilized in the Reinforcement Learning from Human Feedback (RLHF) phase to align Large Language Mo

发现论文，激发创造

使用偏移量的直接偏好优化

直接偏好优化（DPO）是一种成功调优策略，用于将大型语言模型与人类偏好对齐，而无需训练奖励模型或使用强化学习。本文提出了一种名为带有偏移量的DPO（ODPO）的DPO泛化方法，通过对更喜欢或更讨厌的回复之间的可能性差异设置偏移量，以在调优过程中有选择地处理偏好对。实验结果表明，ODPO在对齐语言模型方面明显优于传统的DPO方法，尤其是在偏好对数量有限的情况下。

Feb, 2024

直接偏好优化中的长度与质量解耦

人类反馈强化学习对大型语言模型的成功起到至关重要的作用，然而，它存在一些问题，如偏好中的冗长性。本研究通过研究Direct Preference Optimization（DPO）中的长度问题，提出了一种以简单而原则性的正则化策略控制冗长性的方法。在摘要和对话的数据集上，尽管GPT4评判者存在冗长偏见，但我们在控制长度的情况下获得了高达20%的胜率提升。

Mar, 2024

分析和理解DPO的局限性：理论视角

直接偏好优化(DPO)通过从成对偏好数据中推导奖励信号，已被证明在与人类偏好的对齐大型语言模型(LLMs)方面具有有效性。为了克服其在SFT的有效性和向人类首选响应的学习能力方面的敏感性，导致性能不够令人满意，我们提供了一个使用场论的分析框架来分析DPO的优化过程的理论基础，发现DPO损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快，这为了解DPO在相关研究实验中发现的限制提供了理论洞察，从而为其改进奠定了基础。

Apr, 2024

Mallows-DPO: 用偏好离散来优化您的LLM

Mallows-DPO是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法(DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

通过下采样KL散度消除直接偏好优化的有偏长度依赖

通过引入名为SamPO的有效降采样方法，解决了直接偏好优化(Direct Preference Optimization)算法中的过度优化问题(verbosity)，并实现了通过去偏的奖励实现比DPO提高5%至12%的改进。

Jun, 2024

迭代长度正则化直接偏好优化：基于提升7B语言模型至GPT-4水平的案例研究

我们引入了迭代的长度正则化DPO（iLR-DPO）来解决改进的回应质量可能导致冗长的问题，并验证了iLR-DPO在与GPT-4相媲美的性能上的有效性。

Jun, 2024

直接优化偏好的新准则

基于直接偏好优化（DPO）本身存在未解决的缺陷，此研究提出一种代替的DPO损失函数，以缓解低质量响应和约束处理方面的权衡问题，并通过实证结果验证了分析的重要方面。

Jul, 2024

减少DPO拒绝惩罚以提高训练鲁棒性

本研究解决了大型语言模型在与人类偏好对齐过程中的不足，提出了MinorDPO作为强化学习的改进版本。通过对DPO中β参数的分析，揭示了其与传统RL算法的语法差异及其潜在短板，最终表明MinorDPO能提高优化过程的稳定性和鲁棒性。

Aug, 2024

减少DPO拒绝惩罚以增加训练的鲁棒性

本研究解决了现有直接偏好优化(DPO)方法在训练大型语言模型时对人类偏好的对齐问题。通过对DPO中$\beta$机制的分析和改进，提出了MinorDPO方法，使其在偏好优化过程中更稳定，并与原始强化学习算法更好地对齐。该方法的显著发现是可以提高训练的鲁棒性，从而增强模型性能。

Aug, 2024