将社会选择理论映射到 RLHF

Apr, 2024

Mapping Social Choice Theory to RLHF

Jessica Dai, Eve Fleisig

TL;DR使用强化学习从人类反馈中提取人类偏好以获得模型行为的研究的限制，引用社会选择理论作为参考点。我们分析社会选择与强化学习从人类反馈的问题设置，确定它们之间的关键差异，并讨论这些差异如何影响社会选择中众所周知的技术结果的 RLHF 解释。

Abstract

Recent work on the limitations of using reinforcement learning from human feedback (RLHF) to incorporate human preferences into model behavior often raises social choice theory as a reference point. social choice theory

reinforcement learning from human feedback social choice theory voting mechanisms aggregating human preferences problem settings

发现论文，激发创造

人工智能对齐与社会选择：基本限制与政策影响

RLHF 使用于 LLMs 中，本文探讨了 RLHF 的限制和关注民主规范方面的政策挑战，同时提出了建立透明投票规则和聚焦特定用户群体的 AI 代理的需求。

Oct, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

多方可证明强化学习与多样化人工反馈

多方强化学习与人类反馈是新兴的方法，以使模型符合人类的偏好。本文通过理论研究，探讨了多个个体的多样化偏好的多方强化学习方法，并展示传统方法不适用的情况。文章提出了引入元学习以及采用不同的社会福利函数来聚合多方偏好的方式，其中包括纳什、功利主义和 Leximin 福利函数。同时，文章还考虑了无奖励设置，并给出了基于离线偏好数据的 von Neumann Winner 的悲观变体。研究结果表明，多方强化学习与传统单方强化学习在样本复杂度上存在差异，并凸显了多方强化学习的统计复杂性要求。

Mar, 2024

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

用人类反馈的强化学习的社会影响视角

本文系统地研究了 RLHF 的社会影响，提出了七种 RLHF 的应用方式，分析了其对人类体验 AI 的积极影响，同时也探讨了 RLHF 可能带来的社会道德问题，以及其与人类相互作用的方面。因为 RLHF 引发的关注类似于现有 AI 技术引发的关注，因此需要对 RLHF 的采用进行审慎且有意识的考虑。

Mar, 2023

RLHF 是否比标准 RL 更困难？

这篇文章证明了，对于广泛的偏好模型，我们可以使用现有的算法和技术，直接解决基于偏好的强化学习问题，具有小的或没有额外成本。

Jun, 2023

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024

纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析

这篇论文研究了基于人类反馈的强化学习方法，通过一种概率偏好模型来学习，实验了一种新的学习范式，KL 正则化 NLHF，旨在找到以初始模型为基础，持续生成优于竞争策略的响应的策略，并将其与传统的强化学习理论联系起来，验证了无奖励模型学习在一般偏好下的潜力。

Feb, 2024

AI 对齐的公理

基于社会选择理论，在强化学习中的人类反馈背景下，通过人类进行的成对比较推导出奖励函数，我们提出了一种具有强公理保证的学习奖励函数的创新规则，利用线性社会选择的新范式限制了可行规则空间。

May, 2024