通过主动偏好优化的可证明样本高效强化学习

Feb, 2024

通过主动偏好优化的可证明样本高效强化学习

Provably Sample Efficient RLHF via Active Preference Optimization

Nirjhar Das, Souradip Chakraborty, Aldo Pacchiano, Sayak Ray Chowdhury

TL;DR基于人类反馈的强化学习（RLHF）是将大型语言模型（LLMs）与人类偏好相一致的关键所在。然而，依赖高质量的人类偏好数据却在 RLHF 的实际实施中构成了昂贵的瓶颈。因此，需要更好和适应性更强的数据收集策略。为此，我们将 RLHF 构建为一个具有提示作为上下文的偏好赌博问题，并证明了通过随机均匀选择提示来收集偏好数据的天真方式会导致策略在奖励上产生 Ω(1) 的次优性差距。然后，我们提出一种主动选择提示以收集偏好数据的算法（ exttt {APO}），在 Bradley-Terry-Luce（BTL）偏好模型下， exttt {APO} 在不损害策略性能的情况下实现了样本效率。我们证明，在给定采样预算 T 的情况下，通过 exttt {APO} 学得的策略的次优性差距的尺度为 O (1/√T)。接下来，我们提出了一种计算高效的 exttt {APO} 的批处理版本，并在实践中评估其性能。对于一个人类偏好数据集的实验评估验证了 exttt {APO} 作为 RLHF 数据收集的具有样本效率和实用性的解决方案，以成本有效且可扩展的方式促进 LLMs 与人类偏好的一致性。

Abstract

reinforcement learning from human feedback (RLHF) is pivotal in aligning large language models (LLMs) with human preferences. While these aligned generative models have demonstrated impressive capabilities across

reinforcement learning from human feedback large language models data collection active preference optimization sample efficiency

发现论文，激发创造

通过积极查询进行人类反馈强化学习

提出了一种基于主动学习的 RLHF 方法，通过半数查询获得与最先进的 DPO 方法相当的性能。

Feb, 2024

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

通过人类反馈进行提示优化

研究了使用用户偏好反馈的黑盒大语言模型优化问题，提出了自动化的 APOHF 算法，应用于多个任务，证明其可以高效地找到好的提示。

May, 2024

对抗性偏好优化

人类偏好对齐是提高大型语言模型交互质量的重要训练步骤。我们提出了一种对抗式偏好优化框架 (APO)，通过最小最大博弈的方式，使 LLM 代理和偏好模型交替更新，从而自适应地解决生成分布差异的问题，实验证明了 APO 在改善 LLM 的帮助性和无害性方面的有效性。

Nov, 2023

探索性偏好优化：利用隐含的 Q * 近似进行样本高效的强化学习优化

强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索，通过鼓励模型产生多样化、最具信息量的回应，充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法 XPO（Exploratory Preference Optimization），它通过引入新颖而且有原则的探索奖励来增强 DPO 目标，使该算法能够在初步模型支持和人类反馈数据之外进行探索。从理论上来看，我们证明了 XPO 具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。在实证方面，我们发现 XPO 在初步评估中比非探索性 DPO 变体具有更高的样本效率。

May, 2024

大型语言模型的主动偏好学习

利用 DPO 进行喂养，通过预测语言模型的预测熵和由 DPO 优化的隐式优先级模型的确定性度量，我们开发了一种主动学习策略来更好地利用偏好标签，从而提高配对偏好数据的学习速率和最终性能。

Feb, 2024

强化学习与人类反馈的自适应偏好缩放

提出了一种新的自适应偏好损失函数，基于分布均衡优化，用于解决偏好强度不确定性问题，通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明，该方法不仅提升了策略性能，还使奖励函数的选择更加贴合策略优化，简化了超参数调整过程。

Jun, 2024

WPO: 加强 RLHF 的加权偏好优化

通过权重偏好优化方法（WPO），我们提出了一种新的策略来缓解离策略偏好优化中分布差异的问题，该方法通过重新加权优先级对预期对策激励进行了模拟，从而更好地逼近离策略数据。我们在指令遵循评估基准上验证了我们的方法，并在 Alpaca Eval 2 上比直接优先权优化（DPO）的表现提高了最高 5.6％，并且在 Llama-3-8B-Instruct 上基于 GPT-4-turbo 建立了显着的长度控制胜率为 48.6％，使其成为排行榜上最强的 8B 模型。

Jun, 2024

为奖励建模实现全面偏好数据收集

通过人类反馈进行强化学习 (RLHF) 可以与人类偏好相协调，从而提高生成的响应质量。RLHF 的一个关键组成部分是奖励模型，在推理阶段通过对偏好数据进行训练并输出标量奖励。然而，对于偏好数据的收集仍缺乏详细的调查。最近的研究表明，偏好数据是通过人工智能或人类收集的，其中在两两响应中选择和拒绝实例。我们质疑这个过程是否有效地过滤噪音并确保收集到足够的多样性数据。为了解决这些问题，我们首次提出了一个全面的偏好数据收集框架，将该过程分解为四个递增步骤：提示生成、响应生成、响应筛选和人工标注。这种结构化方法确保了高质量的偏好数据收集，同时减少对人力的依赖。我们根据不同阶段收集的数据进行了全面的实验，证明了所提出的数据收集方法的有效性。

Jun, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024