ICDPO：通过上下文中的直接偏好优化有效地借用他人的对齐能力

Feb, 2024

ICDPO：通过上下文中的直接偏好优化有效地借用他人的对齐能力

ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization

Feifan Song, Yuxuan Fan, Xin Zhang, Peiyi Wang, Houfeng Wang

TL;DR通过重新思考 DPO 的推导过程，并基于此，借鉴了 ICL 前后 LLM 的状态建立了一个瞬时评分器，从而提出了一种名为 ICDPO 的新方法，使得 LLM 能够借助具有 ICL 的优秀 LLM 的 HPA 能力，生成与前述瞬时评分器估计的良好对齐的回复，从而提升最终性能。

Abstract

large language models (LLMs) rely on human preference alignment (HPA) to ensure the generation of safe content. Due to the heavy cost associated with fine-tuning, →

large language models human preference alignment in-context direct preference optimization instant scorer fine-tuning-free methods

发现论文，激发创造

对 DPO 及其变种在多个任务中的对齐研究

通过评估不同情景下的对齐方法性能以及训练规模对其影响，本研究发现对齐方法在较小的训练数据子集中表现最佳，在推理任务中效果有限但在数学问题解决中有显著影响，而使用调整指令的模型对真实性有明显影响，这些发现将推动进一步研究以解决对齐挑战。

Apr, 2024

使用反事实数据处理器调整大型语言模型

探究利用反事实提示以及直接偏好优化框架来对齐模型风格的方法，该方法有效地注入了良好的行为并减轻了不理想的情况，鼓励模型忽略不合适的指令，从而以低成本的方式使大型语言模型满足对负责任和道德对齐的人工智能系统的需求。

Jan, 2024

令牌级直接优化偏好

通过优化策略的 token 级别前向 KL 散度约束，引入了 Token-level Direct Preference Optimization（TDPO）一种在 human preferences 上对齐 LLMs 的新方法，提高了对齐性和多样性

Apr, 2024

Mallows-DPO: 用偏好离散来优化您的 LLM

Mallows-DPO 是一种新方法，利用人类偏好的分散度指数来改进直接偏好优化方法 (DPO)，从而提高强化学习与人类反馈的性能，适用于各类基准任务，如合成赌徒选择、可控生成和对话，同时保持良好的泛化能力。

May, 2024

使用 DPO 隐式奖励进行自助式语言模型训练

使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。

Jun, 2024

sDPO：不要一次性使用您的数据

随着大型语言模型的发展，与人类偏好的对齐变得越来越重要。我们提出了逐步 DPO（sDPO），这是最近流行的直接偏好优化（DPO）的扩展。该方法涉及将可用的偏好数据集划分并以逐步方式利用，而非一次性使用。我们证明这种方法在 DPO 训练框架中利用了更精确对齐的参考模型。此外，sDPO 训练出的最终模型具有更好的性能，甚至超过了其他具有更多参数的流行大型语言模型。

Mar, 2024

通过受限的直接优化倾向提升 LLM 的安全性

通过引入 Constrained DPO (C-DPO) 方法，本研究提出了一种高效且轻量级的方法，用于在基于人类反馈的强化学习 fine-tuning 阶段强制执行安全约束，从而在同时提高 AI 系统的有用性和安全性方面找到了几乎最优的平衡点。

Mar, 2024

3D - 属性：DPO 的挑战和前进路径

通过对 Direct Preference Optimization（DPO）的实证研究和与 RLHF-PPO 的系统比较，我们发现 DPO 的三个学习结果特征，即被拒绝回应的概率剧烈下降、LLM 的退化以及对未见回应的扩散效应。在此基础上，我们提出了简单的正则化方法来缓解这些问题，提高 DPO 的训练稳定性和最终性能，同时研究配对偏好数据分布对 DPO 效果的影响。希望本研究能够为缩小无奖偏好学习方法和基于奖励学习方法之间的差距提供研究方向。

Jun, 2024

迭代长度正则化直接偏好优化：基于提升 7B 语言模型至 GPT-4 水平的案例研究

我们引入了迭代的长度正则化 DPO（iLR-DPO）来解决改进的回应质量可能导致冗长的问题，并验证了 iLR-DPO 在与 GPT-4 相媲美的性能上的有效性。

Jun, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024