强化学习在数据集重置策略优化中的应用

Apr, 2024

强化学习在数据集重置策略优化中的应用

Dataset Reset Policy Optimization for RLHF

Jonathan D. Chang, Wenhao Shan, Owen Oertell, Kianté Brantley, Dipendra Misra...

TL;DR通过借用重置的概念，利用离线偏好数据集提供的信息状态，我们提出了一种具有可证明保证性的新型 RLHF 算法 DR-PO，该算法将离线偏好数据集集成到在线策略训练过程中，并通过数据集重置来优化策略优化器，以获得比 PPO 和 DPO 更好的生成性能，实验证明 DR-PO 在 GPT4 胜率指标下表现优秀。

Abstract

reinforcement learning (RL) from human preference-based feedback is a popular paradigm for fine-tuning generative models, which has produc

reinforcement learning human preference-based feedback generative models dr-po policy training

发现论文，激发创造

理解从人类偏好中学习的一般理论范式

通过对人类偏好进行学习的强化学习（RLHF）部署依赖于两个重要的近似：第一个假设可以用点奖励替代成对偏好；第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近，直接偏好优化（DPO）被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而，该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是，我们推导出一种新的称为 ΨPO 的通用目标，用成对偏好表示，从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析（作为 ΨPO 的特殊情况），并确定它们的潜在缺陷。然后，我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况，在此情况下，我们可以推导出一个有效的优化过程，证明其性能保证，并在一些示例中展示其在实证上优于 DPO。

Oct, 2023

使用未观测到的偏好异质性进行直接偏好优化

利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

价值激励偏好优化：在线和离线 RLHF 的统一方法

人类反馈引导的强化学习对齐大型语言模型的主要研究领域之一，本文通过引入一种统一的在线和离线强化学习方法 —— 以价值激励的偏好优化（VPO），实现了对奖励函数的不确定性估计，并在文本摘要和对话等任务上进行了实验证实其实用性和有效性。

May, 2024

偏好作为奖励，通过重要性采样进行最大偏好优化

这篇论文介绍了一种重要的技术 —— 偏好学习，其中 Reinforcement Learning from Human Feedback（RLHF）是一种优化偏好学习的模型算法，通过对偏好得分建立奖励模型并优化生成策略；为了提高数据效率和稳定性，提出了使用离策略算法进行直接优化生成策略的 Direct Preference Optimization（DPO）算法；通过增加离策略 KL 正则化项实现了 KL 正则化的真正有效性。

Dec, 2023

探索性偏好优化：利用隐含的 Q * 近似进行样本高效的强化学习优化

强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索，通过鼓励模型产生多样化、最具信息量的回应，充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法 XPO（Exploratory Preference Optimization），它通过引入新颖而且有原则的探索奖励来增强 DPO 目标，使该算法能够在初步模型支持和人类反馈数据之外进行探索。从理论上来看，我们证明了 XPO 具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。在实证方面，我们发现 XPO 在初步评估中比非探索性 DPO 变体具有更高的样本效率。

May, 2024

DPO 相遇 PPO：针对 RLHF 的强化标记优化

在这篇研究中，我们介绍了一种将人类反馈引入加强学习的框架，并提出了一种基于标记级别信息的算法，通过学习标记级别的奖励函数并进行策略优化，从而有效地解决了传统深度强化学习中的挑战。

Apr, 2024

RLHF 中的策略优化：偏离偏好数据的影响

通过对直接优化偏好和基于奖励模型的策略优化的比较，该研究发现使用足够的无偏好数据进行策略优化能够显著提高性能，并且 RMB-PO + 方法表现最佳。

Dec, 2023

通过覆盖度了解偏好微调

通过对数据集覆盖性的严格分析，我们证明离线对比方法能够收敛到最优策略的全局覆盖条件既是必要条件又是充分条件，而在线强化学习方法则只需要弱的局部覆盖条件，这解释了为何在线强化学习方法在离线优化数据不足时表现更好。我们推导了一种混合优化算法 (HyPO)，它使用离线数据进行基于对比的优化，同时使用在线数据进行 KL 正则化。从理论和实证上证明，HyPO 比纯离线方法 (DPO) 具有更好的性能，同时仍然保持计算和内存效率。

Jun, 2024

WPO: 加强 RLHF 的加权偏好优化

通过权重偏好优化方法（WPO），我们提出了一种新的策略来缓解离策略偏好优化中分布差异的问题，该方法通过重新加权优先级对预期对策激励进行了模拟，从而更好地逼近离策略数据。我们在指令遵循评估基准上验证了我们的方法，并在 Alpaca Eval 2 上比直接优先权优化（DPO）的表现提高了最高 5.6％，并且在 Llama-3-8B-Instruct 上基于 GPT-4-turbo 建立了显着的长度控制胜率为 48.6％，使其成为排行榜上最强的 8B 模型。

Jun, 2024