从偏好中学习最佳优势，并将其误认为奖励

Oct, 2023

从偏好中学习最佳优势，并将其误认为奖励

Learning Optimal Advantage from Preferences and Mistaking it for Reward

W. Bradley Knox, Stephane Hatgis-Kessell, Sigurdur Orn Adalgeirsson, Serena Booth, Anca Dragan...

TL;DR研究文章探讨了从人类偏好中学习奖励函数的算法，特别是在人类反馈的强化学习中，最近一些工作对假设人类偏好仅基于路径片段内积累的奖励或者部分回报的有效性提出了质疑，并提出了基于遗憾的替代偏好模型。研究结论发现，当将基于部分回报的偏好错误地用作奖励函数时，尽管存在特定的问题，但并不会产生太大的影响，仍然可以产生高度优化的奖励函数，但这种使用方式并不理想，相比之下，采用基于贪心法的最大化奖励函数的方法更为简单和合适。从遗憾偏好模型的角度来看，我们还对将当代大型语言模型与强化学习结合进行模型微调提出了更清晰的解释。总的来说，本文对于解释部分回报偏好模型为什么在实践中效果如此好的原因提供了见解，尽管该模型与人类偏好的方式不太吻合。

Abstract

We consider algorithms for learning reward functions from human preferences over pairs of trajectory segments, as used in reinforcement learning from human feedback (RLHF). Most recent work assumes that human preferences are generated based only upon the reward accrued within those seg

learning reward functions reinforcement learning from human feedback partial return preference regret preference large language models

发现论文，激发创造

人类学习奖励函数的偏好模型

通过基于遗憾而非局部回报的人类偏好模型，可以更好地学习与人类利益相符的奖励函数，从而实现政策的对齐。

Jun, 2022

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

优化学习奖励函数的危险性：低训练误差并不能保证低后悔

通过数学证明，该论文指出学习到的奖励模型的预期测试误差越低，最差情况的后悔也越小，然而对于任意固定预期测试误差而言，存在着导致误差和后悔不匹配的现实数据分布，该问题即使在使用常见的强化学习方法中同样存在。因此，该论文的理论结果强调了开发衡量学习到奖励模型质量的新方法的重要性。

Jun, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

探索奖励差距对偏好模型性能的影响

从人类反馈中进行强化学习（RLHF）是一种广泛使用的语言模型训练框架。我们的研究发现，使用传统的基于人类偏好数据的排名目标来训练现有的奖励模型时，往往难以有效区分在真实场景中更受欢迎或不受欢迎的回应。为了弥补这一差距，我们的研究引入了一种新的方法来估计偏好差异，而无需从人类注释员那里获得详细的详尽标签。我们的实验结果从经验上证明，将边界值纳入训练过程中显著提高了奖励模型的效果。这种比较分析不仅展示了我们的方法在奖励预测准确性方面的优越性，还突出了它在实际应用中的有效性。

Apr, 2024

纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析

这篇论文研究了基于人类反馈的强化学习方法，通过一种概率偏好模型来学习，实验了一种新的学习范式，KL 正则化 NLHF，旨在找到以初始模型为基础，持续生成优于竞争策略的响应的策略，并将其与传统的强化学习理论联系起来，验证了无奖励模型学习在一般偏好下的潜力。

Feb, 2024

AI 对齐的公理

基于社会选择理论，在强化学习中的人类反馈背景下，通过人类进行的成对比较推导出奖励函数，我们提出了一种具有强公理保证的学习奖励函数的创新规则，利用线性社会选择的新范式限制了可行规则空间。

May, 2024

理解从人类偏好中学习的一般理论范式

通过对人类偏好进行学习的强化学习（RLHF）部署依赖于两个重要的近似：第一个假设可以用点奖励替代成对偏好；第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近，直接偏好优化（DPO）被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而，该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是，我们推导出一种新的称为 ΨPO 的通用目标，用成对偏好表示，从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析（作为 ΨPO 的特殊情况），并确定它们的潜在缺陷。然后，我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况，在此情况下，我们可以推导出一个有效的优化过程，证明其性能保证，并在一些示例中展示其在实证上优于 DPO。

Oct, 2023

强化学习与人类反馈的自适应偏好缩放

提出了一种新的自适应偏好损失函数，基于分布均衡优化，用于解决偏好强度不确定性问题，通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明，该方法不仅提升了策略性能，还使奖励函数的选择更加贴合策略优化，简化了超参数调整过程。

Jun, 2024

当人类评估者在奖励学习中遇到局部可观测性的挑战

强化学习从人类反馈中的过去分析假设人类完全观察能力。当人类反馈仅基于部分观察时会发生什么？我们正式定义了两种失败情况：欺骗和过度合理化。通过将人类建模为对轨迹的信念的 Boltzmann - 理性，我们证明了在什么条件下 RLHF 可以保证导致会欺骗地夸大其表现、过度合理化其行为或两者兼而有之。为了帮助解决这些问题，我们从数学上描述了环境的部分可观测性如何转化为学习回报函数中的（缺乏）模糊性。在某些情况下，考虑部分可观测性可以从理论上恢复回报函数和最优策略，而在其他情况下存在不可避免的模糊性。我们警告不要盲目将 RLHF 应用于部分可观测的环境，并提出研究方向以帮助应对这些挑战。

Feb, 2024