可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

Mar, 2024

可证明的鲁棒 DPO：将语言模型与噪声反馈对齐

Provably Robust DPO: Aligning Language Models with Noisy Feedback

Sayak Ray Chowdhury, Anush Kini, Nagarajan Natarajan

TL;DR通过引入在随机偏好翻转情况下进行策略优化的总体框架，我们的实验表明将 rDPO 与其他从业者提出的启发式算法相比，可以显著降低偏好标签噪音对学习策略的影响。

Abstract

learning from preference-based feedback has recently gained traction as a promising approach to align language models with human interests. While these aligned generative models have demonstrated impressive capab

learning from preference-based feedback aligned generative models noisy preference pairs policy optimization robust dpo policy

发现论文，激发创造

RS-DPO：一种用于大型语言模型对齐的混合拒绝抽样和直接偏好优化方法

通过系统地结合拒绝采样和直接偏好优化方法，我们提出的 RS-DPO 方法能够有效地在资源有限的环境中对大型语言模型进行精调，提高其与用户意图的一致性，并且胜过 RS、PPO 和 DPO 等现有方法。

Feb, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

统计拒绝抽样改进偏好优化

通过引入一种称为统计拒绝采样优化 (RSO) 的新方法，我们能更准确地从目标最优策略中获取偏好数据，并提出了一个统一框架，从偏好建模的角度增强了 SLiC 和 DPO 中所使用的损失函数。通过在三个不同任务上进行广泛的实验，我们证明了 RSO 在来自大型语言模型 (LLM) 和人类评估者的评估中一致优于 SLiC 和 DPO。

Sep, 2023

DPO 和 PPO 的剥离：揭示从偏好反馈中学习的最佳实践

从偏好反馈学习的四个核心方面：偏好数据，学习算法，奖励模型和政策训练提示，我们系统地研究了这些组件对下游模型性能的影响，并提出了一种强偏好反馈学习的方法。研究发现，偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。

Jun, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

具有可证明噪声容忍性的鲁棒偏好优化

ROPO 是第一个提供噪声容忍保证的偏好对齐方法，通过动态分配激进梯度权重给具有高标签不确定性的回应对，有效地抑制噪声样本的梯度，保证了期望风险具有相同的梯度方向，实验证明 ROPO 显著优于现有的基于排名的方法。

Apr, 2024

D2PO：带鉴别器引导的 DPO 及响应评估模型

我们提出了 D2PO，即鉴别器引导的 DPO，在线设置下通过收集偏好来训练策略，同时使用鉴别器模型对回应进行评估，以获得高质量的输出和更高的效率。

May, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

利用人类反馈对扩散模型进行微调，无需任何奖励模型

使用直接偏好优化方法直接优化扩散模型，在不需要训练奖励模型的情况下，通过相对目标的比例作为人类偏好的代理实现了可比较的结果，减少了图像畸变率并生成了更安全的图像。

Nov, 2023