对齐上界：从人类反馈中的强化学习目标不匹配

Oct, 2023

对齐上界：从人类反馈中的强化学习目标不匹配

The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from Human Feedback

Nathan Lambert, Roberto Calandra

TL;DR用来自人类反馈的强化学习技术已经成为一个强大的工具，使得大型语言模型在复杂环境中更容易引导，更具能力。然而，由于奖励模型、策略模型和评估模型之间的不一致性，存在目标不匹配的问题。本文探讨了这个问题的原因，并回顾了相关的模型学习和强化学习文献。同时，讨论了激励解匹配之后的解决方案，以促进进一步的研究，从而使未来的语言模型更加准确地遵循用户的指令，提供更安全和有用的服务。

Abstract

reinforcement learning from human feedback (RLHF) has emerged as a powerful technique to make large language models (LLMs) easier to prompt and more capable in complex settings. RLHF at its core is providing a ne

发现论文，激发创造

大型语言模型中 RLHF 的秘密第一部分: PPO

大型语言模型对人工通用智能发展提出了一个使命，与人类对齐是其最重要的挑战，强化学习与人类反馈是支撑此追求的关键技术，并探讨了在 PPO 算法中影响策略代理训练的部件，并提出了 PPO-max 增强版本以提高策略模型的训练稳定性，总结了与SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。

Jul, 2023

奖励（不）一致性对RLHF的渗透影响

通过对奖励模型(RM)的一致性进行研究，本文提出了一种基于对比指令的策略来测量奖励模型的一致性，并提出了ConvexDA和RewardFusion两种技术来提高奖励模型的一致性，实验证明了更一致的RM对下游RLHF模型的训练产生了更有用的响应。

Sep, 2023

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF结合了Supervised Fine-Tuning和Reinforcement Learning from Human Feedback的优点，并通过替换PPO算法和引入KL divergence先验，提出了一种新的训练方法。实验结果表明，SuperHF在训练目标、奖励优化和模型性能等方面表现优于基于PPO的RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

强化学习与人类反馈调查

深入探讨人机交互技术中基于人类反馈的强化学习（RLHF）的基本原理、应用及其研究趋势。

Dec, 2023

大型语言模型中RLHF的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

Uni-RLHF: 强化学习通用平台和基准套件与多样化人类反馈

通过Uni-RLHF系统，我们提供了一套从真实人类反馈到实用问题开发中全面工作流的解决方案，包括通用的多反馈注释平台、大规模众包反馈数据集和模块化离线RLHF基线实现。通过广泛的实验，我们的结果表明，与精心设计的手动奖励相比，收集到的数据集在多个任务中表现出有竞争力的性能，同时也评估了各种设计选择并提出了改进的潜在领域。我们希望建立有价值的开源平台、数据集和基线，以便基于现实人类反馈来促进更强大、可靠的RLHF解决方案的开发。

Feb, 2024

RLHF 揭示：对于LLMs的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对RLHF的挑战进行了描述，为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

奖励和策略模型在强化学习中的无缝衔接探讨

借助强化学习从人类反馈中进行训练，通过训练策略模型和奖励模型来使语言模型与人类偏好相一致；我们提出了研究对策略模型和奖励模型之间的交互作用进行微调的无缝度概念，探索了其对性能的影响，并引入了自动度量标准SEAM来度量两者之间的无缝度。实验证明，利用SEAM进行数据选择和模型增强可以显著提高强化学习从人类反馈中的性能。

Jun, 2024

离线人类反馈强化学习方法需要更精确的监督信号

本研究聚焦于现有离线人类反馈强化学习（RLHF）在捕捉反馈偏好方面存在的不足，尤其是忽视了偏好强度。我们提出了一种称为奖励差异优化（RDO）的新方法，通过引入奖励差异系数来调整样本对的权重，进而提高LLMs与人类意图的对齐效果。实验结果表明，该方法在自动评测和人工评估中均表现出良好效果，展示了其在提高模型对人类价值观的适应性方面的潜力。

Aug, 2024

朝着可靠的对齐：关注不确定性的强化学习人类反馈（RLHF）

本研究针对强化学习人类反馈中 reward 模型的不确定性问题，提出了一种不确定性意识的保守算法以优化策略。通过理论和实验证实，该方法可降低风险，同时提高模型与人类偏好的一致性，具有重要的潜在影响。

Oct, 2024