价值激励偏好优化：在线和离线 RLHF 的统一方法

May, 2024

价值激励偏好优化：在线和离线 RLHF 的统一方法

Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF

Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang...

TL;DR人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一，本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化（VPO），实现了对奖励函数的不确定性估计，并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。

Abstract

reinforcement learning from human feedback (RLHF) has demonstrated great promise in aligning large language models (LLMs) with human preference. Depending on the availability of preference data, both online and <

reinforcement learning human feedback online rlhf offline rlhf value-incentivized preference optimization

发现论文，激发创造

WPO: 加强 RLHF 的加权偏好优化

通过权重偏好优化方法（WPO），我们提出了一种新的策略来缓解离策略偏好优化中分布差异的问题，该方法通过重新加权优先级对预期对策激励进行了模拟，从而更好地逼近离策略数据。我们在指令遵循评估基准上验证了我们的方法，并在 Alpaca Eval 2 上比直接优先权优化（DPO）的表现提高了最高 5.6％，并且在 Llama-3-8B-Instruct 上基于 GPT-4-turbo 建立了显着的长度控制胜率为 48.6％，使其成为排行榜上最强的 8B 模型。

Jun, 2024

探索性偏好优化：利用隐含的 Q * 近似进行样本高效的强化学习优化

强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索，通过鼓励模型产生多样化、最具信息量的回应，充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法 XPO（Exploratory Preference Optimization），它通过引入新颖而且有原则的探索奖励来增强 DPO 目标，使该算法能够在初步模型支持和人类反馈数据之外进行探索。从理论上来看，我们证明了 XPO 具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。在实证方面，我们发现 XPO 在初步评估中比非探索性 DPO 变体具有更高的样本效率。

May, 2024

偏好作为奖励，通过重要性采样进行最大偏好优化

这篇论文介绍了一种重要的技术 —— 偏好学习，其中 Reinforcement Learning from Human Feedback（RLHF）是一种优化偏好学习的模型算法，通过对偏好得分建立奖励模型并优化生成策略；为了提高数据效率和稳定性，提出了使用离策略算法进行直接优化生成策略的 Direct Preference Optimization（DPO）算法；通过增加离策略 KL 正则化项实现了 KL 正则化的真正有效性。

Dec, 2023

使用未观测到的偏好异质性进行直接偏好优化

利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024

超越奖励：离线引导偏好的策略优化

该研究关注了离线基于偏好的强化学习（PbRL）的主题，引入了一种名为离线偏好指导策略优化（OPPO）的范式，通过一步过程模型化离线轨迹和人类偏好，不需要单独学习奖励函数，成功地模拟了离线偏好并胜过了竞争基线。

May, 2023

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

回归基础：重新评估 LLMs 中学习人类反馈的 REINFORCE 样式优化

通过改进 Proximal Policy Optimization，使用 REINFORCE-style optimization 的方法在低成本情况下实现在线强化学习优化，从而提高 AI 对人类反馈的 RLHF 的性能。

Feb, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

理解从人类偏好中学习的一般理论范式

通过对人类偏好进行学习的强化学习（RLHF）部署依赖于两个重要的近似：第一个假设可以用点奖励替代成对偏好；第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近，直接偏好优化（DPO）被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而，该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是，我们推导出一种新的称为 ΨPO 的通用目标，用成对偏好表示，从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析（作为 ΨPO 的特殊情况），并确定它们的潜在缺陷。然后，我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况，在此情况下，我们可以推导出一个有效的优化过程，证明其性能保证，并在一些示例中展示其在实证上优于 DPO。

Oct, 2023

迭代纳什策略优化：通过无悔学习使 LLMs 与一般偏好相一致

本文以游戏理论的角度，探讨了一种基于人类偏好与强化学习的算法，通过采用无懊悔学习，自我对抗的方式逼近纳什平衡策略，从而解决了大规模语言模型对人类反馈的规模性计算问题。实验证明该算法相较于之前的方法在不考虑个体响应的预期胜率的情况下能够取得更好的结果。

Jun, 2024