分布式偏好学习：理解并考虑 RLHF 中的隐藏语境

Dec, 2023

分布式偏好学习：理解并考虑 RLHF 中的隐藏语境

Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF

Anand Siththaranjan, Cassidy Laidlaw, Dylan Hadfield-Menell

TL;DR通过分析人类的反馈学习中的偏好数据，我们发现隐藏背景信息可能导致一些反直觉的结果，从而引发强化学习算法的漏洞。为了减轻这些问题，我们引入了一种称为分布式偏好学习的方法，能够更好地考虑隐藏背景，并显著降低后续遭受攻击的概率。

Abstract

In practice, preference learning from human feedback depends on incomplete data with hidden context. hidden context refers to data that af

preference learning hidden context reinforcement learning distributional preference learning rlhf

发现论文，激发创造

基于密度估计的从两两人类偏好中学习的视角

借助人类反馈（LHF）特别是借助成对偏好学习，最近成为训练大型语言模型（LLM）的重要组成部分并且引起了广泛研究。本文提出了一个替代解释，将其视为成对偏好的生成过程，并将 LHF 视为密度估计问题，通过实践和理论结果证明了基于成对偏好训练奖励函数能够有效地模拟标注者的隐含偏好分布。最后，我们讨论并呈现了有关 “标注者错误建模” 的发现。这些错误建模假设标注者行为出现错误，导致不适应的模型，在多样性观点的标注者群体中，借助成对人类偏好进行学习可能存在困难。

Nov, 2023

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

利用隐含背景完成 Pareto 最优偏好学习

通过使用 Pareto Optimal Preference Learning (POPL) 模型，借助于 Lexicase 筛选过程，本研究实证评估表明 POPL 在学习奖励函数方面超过基线方法，有效满足不同的群体需求，并确保包容和公平的人工智能模型对齐。

Jun, 2024

基于主动探索的样本有效强化学习来自人类反馈

利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持，本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界，提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法，并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。

Dec, 2023

强化学习与人类反馈的自适应偏好缩放

提出了一种新的自适应偏好损失函数，基于分布均衡优化，用于解决偏好强度不确定性问题，通过引入自适应缩放参数增加了对奖励函数的灵活性。实验证明，该方法不仅提升了策略性能，还使奖励函数的选择更加贴合策略优化，简化了超参数调整过程。

Jun, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

理解从人类偏好中学习的一般理论范式

通过对人类偏好进行学习的强化学习（RLHF）部署依赖于两个重要的近似：第一个假设可以用点奖励替代成对偏好；第二个假设在这些点奖励上训练的奖励模型可以从策略采样的超出分布数据中进行泛化。最近，直接偏好优化（DPO）被提出作为一种绕过第二个近似并直接从收集到的数据中学习策略的方法。然而，该方法仍然严重依赖于第一个近似。本文尝试对这些实际算法进行更深入的理论理解。特别是，我们推导出一种新的称为 ΨPO 的通用目标，用成对偏好表示，从而绕过了两个近似。这个新的通用目标使我们能够对 RLHF 和 DPO 的行为进行深入分析（作为 ΨPO 的特殊情况），并确定它们的潜在缺陷。然后，我们通过将 Ψ 简单地设置为 Identity 来考虑 ΨPO 的另一种特殊情况，在此情况下，我们可以推导出一个有效的优化过程，证明其性能保证，并在一些示例中展示其在实证上优于 DPO。

Oct, 2023

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024

使用未观测到的偏好异质性进行直接偏好优化

利用 DPO 和最大期望适应机制，通过生成模型的混合来对齐不同人类偏好的生成模型，同时引入极小极大后悔集成学习模型以在类似潜在因素的注释者子组之间最小化最坏情况后悔，实验证实了方法在产生公正生成策略方面的有效性。

May, 2024

通过积极查询进行人类反馈强化学习

提出了一种基于主动学习的 RLHF 方法，通过半数查询获得与最先进的 DPO 方法相当的性能。

Feb, 2024