纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析

Feb, 2024

纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析

A Theoretical Analysis of Nash Learning from Human Feedback under General KL-Regularized Preference

Chenlu Ye, Wei Xiong, Yuheng Zhang, Nan Jiang, Tong Zhang

TL;DR这篇论文研究了基于人类反馈的强化学习方法，通过一种概率偏好模型来学习，实验了一种新的学习范式，KL 正则化 NLHF，旨在找到以初始模型为基础，持续生成优于竞争策略的响应的策略，并将其与传统的强化学习理论联系起来，验证了无奖励模型学习在一般偏好下的潜力。

Abstract

reinforcement learning from human feedback (RLHF) learns from the preference signal provided by a probabilistic preference model, which ta

reinforcement learning human feedback nash learning preference model kl-regularized nlhf

发现论文，激发创造

纳什学习来自人类反馈

通过带有人类反馈的强化学习，我们引入一种新的方法来提升大型语言模型的性能，通过学习人类偏好并优化策略，实现与人类偏好的协调。

Dec, 2023

多轮强化学习从人类偏好反馈中学习

本研究通过发展新的强化学习方法，解决了基于喜好反馈的多轮对话中规划和多轮互动问题，通过实验证明该算法在教育对话环境中超越了基线模型，同时在含有明确奖励的环境中也能达到基于奖励强化学习模型的性能

May, 2024

RLHF 是否比标准 RL 更困难？

这篇文章证明了，对于广泛的偏好模型，我们可以使用现有的算法和技术，直接解决基于偏好的强化学习问题，具有小的或没有额外成本。

Jun, 2023

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

对比偏好学习：无需 RL 的人类反馈学习

使用最大熵原理，引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL)，该算法能够在不学习奖励函数的情况下，通过偏好学习最优策略，克服了优化挑战并能应用于任意 MDPs 环境。

Oct, 2023

如何在强化学习中高效地查询人类反馈？

研究提出了一种有效的轨迹对采样方法，用于探索隐藏的奖励函数，以便在收集人类反馈之前准确地学习，比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略，可以考虑线性和低秩 MDP

May, 2023

多方可证明强化学习与多样化人工反馈

多方强化学习与人类反馈是新兴的方法，以使模型符合人类的偏好。本文通过理论研究，探讨了多个个体的多样化偏好的多方强化学习方法，并展示传统方法不适用的情况。文章提出了引入元学习以及采用不同的社会福利函数来聚合多方偏好的方式，其中包括纳什、功利主义和 Leximin 福利函数。同时，文章还考虑了无奖励设置，并给出了基于离线偏好数据的 von Neumann Winner 的悲观变体。研究结果表明，多方强化学习与传统单方强化学习在样本复杂度上存在差异，并凸显了多方强化学习的统计复杂性要求。

Mar, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024