完美融合：通过评审组合重新定义人类反馈强化学习

Sep, 2024

完美融合：通过评审组合重新定义人类反馈强化学习

The Perfect Blend: Redefining RLHF with Mixture of Judges

Tengyu Xu, Eryk Helenowski, Karthik Abinav Sankararaman, Di Jin, Kaiyan Peng...

TL;DR本研究解决了人类反馈强化学习在多任务学习中的局限性，特别是奖励黑客和极端多目标优化的问题。通过提出一种新颖的后训练范式——约束生成策略优化（CGPO），并引入评审组合（MoJ），实现了高效的策略优化，显著提升了多项任务的性能，特别是在避免奖励黑客方面表现出色。这一创新方法不仅提升了强化学习的效果，还推进了大语言模型在多样化应用场景中的对齐能力。

Abstract

Reinforcement Learning from Human Feedback (RLHF) has become the leading approach for fine-tuning large Language Models (LLM). However, RL

发现论文，激发创造

大型语言模型中 RLHF 的秘密第一部分: PPO

大型语言模型对人工通用智能发展提出了一个使命，与人类对齐是其最重要的挑战，强化学习与人类反馈是支撑此追求的关键技术，并探讨了在 PPO 算法中影响策略代理训练的部件，并提出了 PPO-max 增强版本以提高策略模型的训练稳定性，总结了与SFT 模型和 ChatGPT 相比的 RLHF 能力的全面分析。

Jul, 2023

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF结合了Supervised Fine-Tuning和Reinforcement Learning from Human Feedback的优点，并通过替换PPO算法和引入KL divergence先验，提出了一种新的训练方法。实验结果表明，SuperHF在训练目标、奖励优化和模型性能等方面表现优于基于PPO的RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

大型语言模型中RLHF的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

使用强化学习训练大型语言模型进行推理

从人类反馈中进行强化学习（RLHF）已成为将LLM输出与人类偏好对齐的一种主要方法。受RLHF成功的启发，我们研究了从反馈中学习（Expert Iteration，Proximal Policy Optimization（PPO），Return-Conditioned RL）对改善LLM推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为LLM提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态，包括有和没有经过监督微调（SFT）数据的情况开始研究。总的来说，我们发现所有算法的性能相当，大多数情况下Expert Iteration的性能最佳。令人惊讶的是，我们发现Expert Iteration的样本复杂度与PPO相似，需要最多约$10^6$个样本从预训练检查点收敛。我们研究了为什么会这样，并得出结论，在RL训练期间，模型未能在SFT模型已经产生的解之外进行显着的探索。此外，我们讨论了SFT训练期间maj@1和pass@96度量性能之间的取舍，并且相反，RL训练同时改善了两者。最后，我们讨论了我们的发现对RLHF和LLM微调中RL的未来角色的影响。

Mar, 2024

RLHF 揭示：对于LLMs的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对RLHF的挑战进行了描述，为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

离线人类反馈强化学习方法需要更精确的监督信号

本研究聚焦于现有离线人类反馈强化学习（RLHF）在捕捉反馈偏好方面存在的不足，尤其是忽视了偏好强度。我们提出了一种称为奖励差异优化（RDO）的新方法，通过引入奖励差异系数来调整样本对的权重，进而提高LLMs与人类意图的对齐效果。实验结果表明，该方法在自动评测和人工评估中均表现出良好效果，展示了其在提高模型对人类价值观的适应性方面的潜力。

Aug, 2024

序列到序列奖励建模：通过语言反馈改善RLHF

本研究解决了大型语言模型（LLMs）与人类意图及价值观对齐的偏差问题，提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈，该方法在无需额外注释的情况下改进了强化学习（RLHF）的效果，实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象，并改善了文本摘要任务中的长响应偏倚。

Aug, 2024

在RLHF中进行政策过滤以微调LLM进行代码生成

本研究解决了现有的强化学习从人类反馈中（RLHF）在代码生成任务中的奖励模型不准确的问题。通过引入政策过滤（PF-PPO），该方法提高了奖励数据的信噪比，从而优化政策学习。实验结果表明，PF-PPO在多个基准测试上显著提高了大型语言模型的生成性能，展现了其潜在的广泛应用价值。

Sep, 2024

无奖励推断的人类反馈强化学习的零阶策略梯度

该研究解决了在人类反馈强化学习过程中，奖励推断面临的多个挑战，包括双重问题误设定和奖励模型评估困难。论文提出了两种无需奖励推断的强化学习算法，利用人类偏好估计本地价值函数差异，从而为更一般的强化学习问题提供了有效的解决方案。研究结果表明，无奖励推断的有效方法确实存在，从而可能对大规模语言模型的训练产生重大影响。

Sep, 2024

MA-RLHF：通过宏操作从人类反馈进行强化学习

本研究解决了现有基于人类反馈的强化学习在长序列中的信用分配问题，导致学习效率低下。提出的MA-RLHF框架引入宏操作，显著减少了操作与奖励之间的时间距离，从而提升了学习效率和政策梯度的稳定性。本方法在文本摘要、对话生成等任务中表现优异，相较传统方法性能提升达30%，训练速度提高至1.7倍甚至2倍。

Oct, 2024