RLHF 与 IIA：逆向激励

Dec, 2023

RLHF and IIA: Perverse Incentives

Wanqiao Xu, Shi Dong, Xiuyuan Lu, Grace Lam, Zheng Wen...

TL;DR现有的基于人类反馈的强化学习算法基于假设无关替代物的独立性，因此可能激励与偏好相悖的响应，并且当在查询格式或学习算法上进行创新时会导致严重的行为。

Abstract

Existing algorithms for reinforcement learning from human feedback (RLHF) can incentivize responses at odds with preferences because they are based on models that assume →

reinforcement learning human feedback independence of irrelevant alternatives perverse incentives learning algorithms

发现论文，激发创造

强化学习从人类反馈中的开放问题与基本限制

强化学习来自人类反馈是一种训练 AI 系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Jul, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

RLAIF：以 AI 反馈为基础的强化学习扩展

强化学习从人的反馈中能够很好地对齐大型语言模型，但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback（RLAIF）与强化学习从人的反馈（RLHF）的头对头比较，发现它们具有相似的改进效果。在摘要任务中，人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果，而不是基准的监督微调模型。此外，当被要求对 RLAIF 和 RLHF 的摘要进行评分时，人类选择它们的比例相等。这些结果表明，RLAIF 可以取得与人类水平相当的性能，从而解决 RLHF 的可扩展性限制。

Sep, 2023

RLHF 是否比标准 RL 更困难？

这篇文章证明了，对于广泛的偏好模型，我们可以使用现有的算法和技术，直接解决基于偏好的强化学习问题，具有小的或没有额外成本。

Jun, 2023

HRLAIF：通过 AI 反馈在开放域强化学习中的有用性和无害性改进

通过使用 AI 反馈进行增强学习（RLAIF）在大型语言模型（LLM）训练的快速策略迭代阶段比通过人类反馈进行增强学习（RLHF）具有更短的注释周期和更低的成本，使其效率更高。本文提出了混合增强学习来自 AI 反馈（HRLAIF）方法，通过增强 AI 注释的准确性，使模型在训练过程中的帮助更可靠，并且通过 AI 进行红队行动，进一步提高模型的无害性。与 RL 之前的策略模型相比，HRLAIF 方法在满意率上实现了 2.08% 的增加，有效解决了基本 RLAIF 后满意率下降 4.58% 的问题。

Mar, 2024

大型语言模型中 RLHF 的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

May, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024

通过人类反馈进行强化学习的 AI 对齐？矛盾和限制

本文批评性地评估了通过强化学习从反馈中对齐人工智能系统，特别是大规模语言模型，与人的价值观和意图的尝试，包括人的反馈和人工智能的反馈。具体来说，我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判，我们考察了 RLxF 技术的理论基础和实践实现，揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。我们强调了 RLxF 目标中固有的张力和矛盾。此外，我们讨论了在关于对齐和 RLxF 的讨论中往往被忽视的道德相关问题，其中包括用户友好与欺骗、灵活性与可解释性、系统安全之间的权衡。我们最后敦促研究人员和从业者在评估 RLxF 的社会技术后果时进行批判性评估，倡导在人工智能开发中采用更细致、反思的方法。

Jun, 2024