强化学习从人类反馈中的开放问题与基本限制

Jul, 2023

强化学习从人类反馈中的开放问题与基本限制

Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer...

TL;DR强化学习来自人类反馈是一种训练AI系统与人类目标对齐的技术，但其自身存在的问题、局限性以及相关改进技术的概述，以及提出用于改善社会监督的审计和公开标准的重要性。

Abstract

reinforcement learning from human feedback (RLHF) is a technique for training AI systems to align with human goals. RLHF has emerged as the central method used to finetune state-of-the-art large language models (

发现论文，激发创造

用人类反馈的强化学习的社会影响视角

本文系统地研究了RLHF的社会影响，提出了七种RLHF的应用方式，分析了其对人类体验AI的积极影响，同时也探讨了RLHF可能带来的社会道德问题，以及其与人类相互作用的方面。因为RLHF引发的关注类似于现有AI技术引发的关注，因此需要对RLHF的采用进行审慎且有意识的考虑。

Mar, 2023

RLHF-Blender: 一个可配置的学习多样人类反馈的交互界面

使用来自不同来源的人类反馈學习强化学习模型, RLHF-Blender是一个可配置的，互动式界面，帮助研究人员系统地研究人类反馈的属性和质量，以及人类因素对其有效性的影响。

Aug, 2023

RLAIF：以AI反馈为基础的强化学习扩展

强化学习从人的反馈中能够很好地对齐大型语言模型，但是获取高质量人类偏好标签是一个关键 bottleneck。我们进行了一项 RL from AI Feedback（RLAIF）与强化学习从人的反馈（RLHF）的头对头比较，发现它们具有相似的改进效果。在摘要任务中，人类评估员在约 70% 的案例中更喜欢 RLAIF 和 RLHF 生成的结果，而不是基准的监督微调模型。此外，当被要求对 RLAIF 和 RLHF 的摘要进行评分时，人类选择它们的比例相等。这些结果表明，RLAIF 可以取得与人类水平相当的性能，从而解决 RLHF 的可扩展性限制。

Sep, 2023

LLM时代的强化学习: 什么是必要的? 什么是需要的? 强化学习在RLHF, Prompting和更多方面的视角

最近大型语言模型（LLMs）的最新进展，引起了广泛关注，并导致了成功产品，如ChatGPT和GPT-4。它们在遵循指导和提供无害、有益和诚实（3H）回答方面的熟练程度，主要归功于人类反馈强化学习（RLHF）技术。本文旨在将传统RL研究与LLM研究中使用的RL技术联系起来。通过讨论RL的优点，探索为RLHF研究带来或贡献的潜在未来方向。

Oct, 2023

Safe RLHF: 安全的强化学习从人类反馈中

利用Safe Reinforcement Learning from Human Feedback（Safe RLHF）算法，通过训练单独的奖励和成本模型，实现了对大型语言模型（LLMs）在帮助性和无害性上进行人类价值调整，以最大化奖励函数并满足成本约束条件；通过实验证明与现有的值对齐算法相比，Safe RLHF在减轻有害回应的能力和提高模型性能方面更为优越。

Oct, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

Uni-RLHF: 强化学习通用平台和基准套件与多样化人类反馈

通过Uni-RLHF系统，我们提供了一套从真实人类反馈到实用问题开发中全面工作流的解决方案，包括通用的多反馈注释平台、大规模众包反馈数据集和模块化离线RLHF基线实现。通过广泛的实验，我们的结果表明，与精心设计的手动奖励相比，收集到的数据集在多个任务中表现出有竞争力的性能，同时也评估了各种设计选择并提出了改进的潜在领域。我们希望建立有价值的开源平台、数据集和基线，以便基于现实人类反馈来促进更强大、可靠的RLHF解决方案的开发。

Feb, 2024

RLHF 揭示：对于LLMs的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对RLHF的挑战进行了描述，为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

RLHF工作流程：从奖励建模到在线强化学习

我们介绍了在线迭代强化学习（RLHF）的工作流程，通过构建偏好模型和使用监督微调和迭代RLHF，我们在大规模语言模型方面取得了令人印象深刻的性能，通过详细的实现指南，我们提供了一种易于复现的在线迭代RLHF方法。

May, 2024

通过人类反馈进行强化学习的AI对齐? 矛盾和限制

本文批评性地评估了通过强化学习从反馈中对齐人工智能系统，特别是大规模语言模型，与人的价值观和意图的尝试，包括人的反馈和人工智能的反馈。具体来说，我们展示了广泛追求的诚实、无害和有帮助的对齐目标的不足。通过多学科社会技术批判，我们考察了RLxF技术的理论基础和实践实现，揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面的重要局限性。我们强调了RLxF目标中固有的张力和矛盾。此外，我们讨论了在关于对齐和RLxF的讨论中往往被忽视的道德相关问题，其中包括用户友好与欺骗、灵活性与可解释性、系统安全之间的权衡。我们最后敦促研究人员和从业者在评估RLxF的社会技术后果时进行批判性评估，倡导在人工智能开发中采用更细致、反思的方法。

Jun, 2024