AI 对齐的公理

May, 2024

Axioms for AI Alignment from Human Feedback

Luise Ge, Daniel Halpern, Evi Micha, Ariel D. Procaccia, Itai Shapira...

TL;DR基于社会选择理论，在强化学习中的人类反馈背景下，通过人类进行的成对比较推导出奖励函数，我们提出了一种具有强公理保证的学习奖励函数的创新规则，利用线性社会选择的新范式限制了可行规则空间。

Abstract

In the context of reinforcement learning from human feedback (RLHF), the reward function is generally derived from maximum likelihood esti

reinforcement learning human feedback reward function preference aggregation social choice theory

发现论文，激发创造

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024

从偏好中学习最佳优势，并将其误认为奖励

研究文章探讨了从人类偏好中学习奖励函数的算法，特别是在人类反馈的强化学习中，最近一些工作对假设人类偏好仅基于路径片段内积累的奖励或者部分回报的有效性提出了质疑，并提出了基于遗憾的替代偏好模型。研究结论发现，当将基于部分回报的偏好错误地用作奖励函数时，尽管存在特定的问题，但并不会产生太大的影响，仍然可以产生高度优化的奖励函数，但这种使用方式并不理想，相比之下，采用基于贪心法的最大化奖励函数的方法更为简单和合适。从遗憾偏好模型的角度来看，我们还对将当代大型语言模型与强化学习结合进行模型微调提出了更清晰的解释。总的来说，本文对于解释部分回报偏好模型为什么在实践中效果如此好的原因提供了见解，尽管该模型与人类偏好的方式不太吻合。

Oct, 2023

将社会选择理论映射到 RLHF

使用强化学习从人类反馈中提取人类偏好以获得模型行为的研究的限制，引用社会选择理论作为参考点。我们分析社会选择与强化学习从人类反馈的问题设置，确定它们之间的关键差异，并讨论这些差异如何影响社会选择中众所周知的技术结果的 RLHF 解释。

Apr, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

基于成对或 K 个比较的人类反馈的有原则强化学习

我们提供了一个针对具有人类反馈的强化学习 (RLHF) 的理论框架。通过分析我们发现当真实奖励函数是线性的时候，最大似然估计器 (MLE) 在 Bradley-Terry-Luce (BTL) 模型和 Plackett-Luce (PL) 模型下都能收敛。然而，我们表明，在基于学习的奖赏模型的策略时，MLE 失败，而一种悲观的 MLE 在某些涵盖假设下提供了改进的性能策略。此外，我们证明在 PL 模型下，真实 MLE 和一个将 K 路比较分成两两比较的替代 MLE 都会收敛。此外，真实 MLE 渐近地更有效。我们的结果验证了现有 RLHF 算法在 InstructGPT 上的实证成功，并为算法设计提供了新的见解。此外，我们的结果统一了 RLHF 问题和 max-entropy Inverse Reinforcement Learning (IRL) 问题，并为 max-entropy IRL 提供了第一个样本复杂度上界。

Jan, 2023

人工智能对齐与社会选择：基本限制与政策影响

RLHF 使用于 LLMs 中，本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战，同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。

Oct, 2023

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

May, 2024

基于密度估计的从两两人类偏好中学习的视角

借助人类反馈（LHF）特别是借助成对偏好学习，最近成为训练大型语言模型（LLM）的重要组成部分并且引起了广泛研究。本文提出了一个替代解释，将其视为成对偏好的生成过程，并将 LHF 视为密度估计问题，通过实践和理论结果证明了基于成对偏好训练奖励函数能够有效地模拟标注者的隐含偏好分布。最后，我们讨论并呈现了有关 “标注者错误建模” 的发现。这些错误建模假设标注者行为出现错误，导致不适应的模型，在多样性观点的标注者群体中，借助成对人类偏好进行学习可能存在困难。

Nov, 2023

多方可证明强化学习与多样化人工反馈

多方强化学习与人类反馈是新兴的方法，以使模型符合人类的偏好。本文通过理论研究，探讨了多个个体的多样化偏好的多方强化学习方法，并展示传统方法不适用的情况。文章提出了引入元学习以及采用不同的社会福利函数来聚合多方偏好的方式，其中包括纳什、功利主义和 Leximin 福利函数。同时，文章还考虑了无奖励设置，并给出了基于离线偏好数据的 von Neumann Winner 的悲观变体。研究结果表明，多方强化学习与传统单方强化学习在样本复杂度上存在差异，并凸显了多方强化学习的统计复杂性要求。

Mar, 2024

AI 对齐的社会选择：应对多样化的人类反馈

基金会模型的微调是为了避免不安全或有问题的行为，而利用人类反馈进行强化学习或采用宪法人工智能的方法，通过社会选择来处理潜在的人类意见分歧并影响模型的行为。

Apr, 2024