偏好学习算法不学习偏好排序

May, 2024

Preference Learning Algorithms Do Not Learn Preference Rankings

Angelica Chen, Sadhika Malladi, Lily H. Zhang, Xinyi Chen, Qiuyi Zhang...

TL;DR研究了偏好学习算法在最大似然语言模型中的应用，发现现有模型在偏好数据集上的排名准确率低于 60%，并探讨了 DPO 和 RLHF 目标优化之间的差异。

Abstract

preference learning algorithms (e.g., rlhf and dpo) are frequently used to steer LLMs to produce generations that are more preferred by hu

preference learning algorithms ranking accuracy dpo rlhf alignment gap

发现论文，激发创造

理解从人类偏好中学习的一般理论范式

通过对人类偏好进行学习的强化学习（RLHF）部署依赖于两个重要的近似：第一个假设可以用点奖励替代成对偏好；第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近，直接偏好优化（DPO）被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而，该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是，我们推导出一种新的称为 ΨPO 的通用目标，用成对偏好表示，从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析（作为 ΨPO 的特殊情况），并确定它们的潜在缺陷。然后，我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况，在此情况下，我们可以推导出一个有效的优化过程，证明其性能保证，并在一些示例中展示其在实证上优于 DPO。

Oct, 2023

使用未观测到的偏好异质性进行直接偏好优化

利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

偏好作为奖励，通过重要性采样进行最大偏好优化

这篇论文介绍了一种重要的技术 —— 偏好学习，其中 Reinforcement Learning from Human Feedback（RLHF）是一种优化偏好学习的模型算法，通过对偏好得分建立奖励模型并优化生成策略；为了提高数据效率和稳定性，提出了使用离策略算法进行直接优化生成策略的 Direct Preference Optimization（DPO）算法；通过增加离策略 KL 正则化项实现了 KL 正则化的真正有效性。

Dec, 2023

DPO 相对于 PPO 在 LLM 对齐上是否更优？一项全面研究

通过理论和实证研究，本文探究了直接偏好优化（DPO）和邻近策略优化（PPO）方法在强化学习与大型语言模型对齐中的算法特性，并发现 PPO 在细化语言模型时表现出色，超越其它方法，并在挑战性的代码竞赛中取得了最先进的结果。

Apr, 2024

LiPO: 基于学习排序的列表偏好优化

使用 Listwise Preference Optimization 框架对语言模型进行排名问题的对齐，将 LiPO-λ 方法与传统的 DPO 和 SLiC 方法相比，在两项偏好对齐任务中明显表现更好。

Feb, 2024

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

DPO 和 PPO 的剥离：揭示从偏好反馈中学习的最佳实践

从偏好反馈学习的四个核心方面：偏好数据，学习算法，奖励模型和政策训练提示，我们系统地研究了这些组件对下游模型性能的影响，并提出了一种强偏好反馈学习的方法。研究发现，偏好数据、学习算法、改进的奖励模型和额外的无标签提示对模型性能都很重要。

Jun, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023