对 DPO 及其变种在多个任务中的对齐研究

Apr, 2024

对 DPO 及其变种在多个任务中的对齐研究

Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks

Amir Saeidi, Shivanshu Verma, Chitta Baral

TL;DR通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Abstract

large language models (LLMs) have demonstrated remarkable performance across a spectrum of tasks. Recently, direct preference optimization (DPO) has emerged as an RL-free approach to optimize the policy model on

large language models direct preference optimization alignment methods training sizes instruction-tuned model

发现论文，激发创造

三元偏好优化：在单步优化中用更少的数据实现更好的对齐

引入 Triple Preference Optimization (TPO) 方法，使用较少数据直接对大型语言模型进行优化，不需要独立的 Supervised Fine-Tuned 步骤，并在多个评估指标上显示出超过其他方法的性能提升。

May, 2024

使用反事实数据处理器调整大型语言模型

探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法，该方法有效地注入了良好的行为并减轻了不理想的情况，鼓励模型忽略不合适的指令，从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。

Jan, 2024

DPO 相对于 PPO 在 LLM 对齐上是否更优？一项全面研究

通过理论和实证研究，本文探究了直接偏好优化（DPO）和邻近策略优化（PPO）方法在强化学习与大型语言模型对齐中的算法特性，并发现 PPO 在细化语言模型时表现出色，超越其它方法，并在挑战性的代码竞赛中取得了最先进的结果。

Apr, 2024

令牌级直接优化偏好

通过优化策略的 token 级别前向 KL 散度约束，引入了 Token-level Direct Preference Optimization（TDPO）一种在 human preferences 上对齐 LLMs 的新方法，提高了对齐性和多样性

Apr, 2024

了解您的参考模型以实现良好对齐

通过引入 Trust Region DPO 方法，我们提出了一种新的对齐方法来改善模型的质量，通过在训练过程中更新参考策略，我们展示了 TR-DPO 相对于 DPO 在多个参数上的优越性能。

Apr, 2024

sDPO：不要一次性使用您的数据

随着大型语言模型的发展，与人类偏好的对齐变得越来越重要。我们提出了逐步 DPO（sDPO），这是最近流行的直接偏好优化（DPO）的扩展。该方法涉及将可用的偏好数据集划分并以逐步方式利用，而非一次性使用。我们证明这种方法在 DPO 训练框架中利用了更精确对齐的参考模型。此外，sDPO 训练出的最终模型具有更好的性能，甚至超过了其他具有更多参数的流行大型语言模型。

Mar, 2024

分析和理解 DPO 的局限性：理论视角

直接偏好优化 (DPO) 通过从成对偏好数据中推导奖励信号，已被证明在与人类偏好的对齐大型语言模型 (LLMs) 方面具有有效性。为了克服其在 SFT 的有效性和向人类首选响应的学习能力方面的敏感性，导致性能不够令人满意，我们提供了一个使用场论的分析框架来分析 DPO 的优化过程的理论基础，发现 DPO 损失函数减少产生人类不喜欢数据的概率的速度比增加产生首选数据的概率的速度快，这为了解 DPO 在相关研究实验中发现的限制提供了理论洞察，从而为其改进奠定了基础。

Apr, 2024

RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

通过系统地结合拒绝采样和直接偏好优化方法，我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调，提高其与用户意图的一致性，并且胜过 RS、PPO 和 DPO 等现有方法。

Feb, 2024

语言模型的直接对齐通过质量感知的自我优化

利用人类反馈进行强化学习，用于与人类偏好一致的大型语言模型的行为对齐，提出了一个改进的 Direct Policy Optimization 方法，结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量，以此改善训练结果，并实验证明其在多个评估者上比传统方法有更好的性能。

May, 2024

可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

通过引入在随机偏好翻转情况下进行策略优化的总体框架，我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比，可以显著降低偏好标签噪音对学习策略的影响。

Mar, 2024