通过下采样 KL 散度消除直接偏好优化的有偏长度依赖

Jun, 2024

通过下采样 KL 散度消除直接偏好优化的有偏长度依赖

Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence

Junru Lu, Jiazheng Li, Siyu An, Meng Zhao, Yulan He...

TL;DR通过引入名为 SamPO 的有效降采样方法，解决了直接偏好优化 (Direct Preference Optimization) 算法中的过度优化问题 (verbosity)，并实现了通过去偏的奖励实现比 DPO 提高 5% 至 12% 的改进。

Abstract

direct preference optimization (DPO) has emerged as a prominent algorithm for the direct and robust alignment of large language models (LLMs) with human preferences, offering a more straightforward alternative to

direct preference optimization large language models verbosity biased rewards sampo

发现论文，激发创造

直接偏好优化中的长度与质量解耦

人类反馈强化学习对大型语言模型的成功起到至关重要的作用，然而，它存在一些问题，如偏好中的冗长性。本研究通过研究 Direct Preference Optimization（DPO）中的长度问题，提出了一种以简单而原则性的正则化策略控制冗长性的方法。在摘要和对话的数据集上，尽管 GPT4 评判者存在冗长偏见，但我们在控制长度的情况下获得了高达 20% 的胜率提升。

Mar, 2024

超越逆向 KL：通过多样的散度约束泛化直接偏好优化

在人类意见反馈上的强化学习和多样化的分歧约束下，使大语言模型（LLMs）能够更高效地与人类偏好相一致，从而改善对齐性能。

Sep, 2023

迭代长度正则化直接偏好优化：基于提升 7B 语言模型至 GPT-4 水平的案例研究

我们引入了迭代的长度正则化 DPO（iLR-DPO）来解决改进的回应质量可能导致冗长的问题，并验证了 iLR-DPO 在与 GPT-4 相媲美的性能上的有效性。

Jun, 2024

令牌级直接优化偏好

通过优化策略的 token 级别前向 KL 散度约束，引入了 Token-level Direct Preference Optimization（TDPO）一种在 human preferences 上对齐 LLMs 的新方法，提高了对齐性和多样性

Apr, 2024

使用 DPO 隐式奖励进行自助式语言模型训练

使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。

Jun, 2024

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

通过系统地结合拒绝采样和直接偏好优化方法，我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调，提高其与用户意图的一致性，并且胜过 RS、PPO 和 DPO 等现有方法。

Feb, 2024

3D - 属性：DPO 的挑战和前进路径

通过对 Direct Preference Optimization（DPO）的实证研究和与 RLHF-PPO 的系统比较，我们发现 DPO 的三个学习结果特征，即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上，我们提出了简单的正则化方法来缓解这些问题，提高 DPO 的训练稳定性和最终性能，同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。

Jun, 2024

统计拒绝抽样改进偏好优化

通过引入一种称为统计拒绝采样优化 (RSO) 的新方法，我们能更准确地从目标最优策略中获取偏好数据，并提出了一个统一框架，从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验，我们证明了 RSO 在来自大型语言模型 (LLM) 和人类评估者的评估中一致优于 SLiC 和 DPO。

Sep, 2023

通过合成数据对 LMLs 进行行为对齐的优化提炼直接偏好优化

提出一种称为 “rDPO” 的方法，通过自我批评引导创建合成数据，并利用广义的 DPO 损失函数蒸馏为学生 LLM，其中使用额外的外部奖励模型提高合成数据质量，从而改善大型语言模型的行为对齐。

Feb, 2024