OpenRLHF：一个易于使用、可扩展和高性能的 RLHF 框架

May, 2024

OpenRLHF：一个易于使用、可扩展和高性能的 RLHF 框架

OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework

Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang...

TL;DR大型语言模型的尺寸不断增加，其卓越性能使得基于人类反馈的强化学习备受关注。本文提出了一个名为 OpenRLHF 的开源框架，通过使用 Ray、vLLM 和 DeepSpeed 重新设计对四个模型的调度以实现对超过 70B 参数的大型语言模型进行有效的强化学习训练。OpenRLHF 与 Hugging Face 无缝集成，并提供了优化的算法和启动脚本，确保用户友好性。

Abstract

As large language models (LLMs) continue to grow by scaling laws, reinforcement learning from human feedback (rlhf) has gained significant

large language models reinforcement learning from human feedback scaling reinforcement learning openrlhf rlhf

发现论文，激发创造

ReaLHF：通过参数重分配优化大型语言模型的 RLHF 训练

基于参数重新分配的强化学习来自人类反馈（RLHF）是在大型语言模型（LLM）应用中的一个关键技术。为了克服直接采用监督训练的并行化技术可能导致次优性能的限制，我们提出了一种名为参数分配的新方法，在训练过程中动态重新分配 LLM 参数并适应并行化策略。基于这个想法，我们引入了一种名为 ReaLHF 的创新系统，能够根据所需的算法和硬件配置自动发现和运行 RLHF 训练的高效执行计划。ReaLHF 将 RLHF 的执行计划制定为一个增强数据流图，并采用轻量级成本估算器的定制搜索算法发现高效的执行计划。实验结果表明，与基准相比，ReaLHF 在 LLaMA-2 模型上实现了 2.0-10.6 倍的大幅加速。此外，ReaLHF 生成的执行计划与基于 Megatron-LM 的启发式方法相比，性能提高了平均 26％。ReaLHF 的源代码可以在此链接上公开获取。

Jun, 2024

RLHF 工作流程：从奖励建模到在线强化学习

我们介绍了在线迭代强化学习（RLHF）的工作流程，通过构建偏好模型和使用监督微调和迭代 RLHF，我们在大规模语言模型方面取得了令人印象深刻的性能，通过详细的实现指南，我们提供了一种易于复现的在线迭代 RLHF 方法。

May, 2024

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

基于 PPO 的 RLHF 的 N + 实现细节：TL;DR 摘要的案例研究

本研究首次公开复现了 OpenAI 的研究成果中提到的强化学习从人类反馈中进行总结的可扩展行为。我们从头开始创建了一个强化学习从人类反馈的流水线，列举了 20 多个关键的实施细节，并在复现过程中分享了关键见解。我们训练的 Pythia 模型在响应质量上取得了显著的进展，其规模与模型的大小成比例，2.8B 和 6.9B 的模型表现优于 OpenAI 发布的 1.3B 检查点。我们公开发布了训练好的模型检查点和代码以促进进一步的研究并加快该领域的进展。

Mar, 2024

Uni-RLHF: 强化学习通用平台和基准套件与多样化人类反馈

通过 Uni-RLHF 系统，我们提供了一套从真实人类反馈到实用问题开发中全面工作流的解决方案，包括通用的多反馈注释平台、大规模众包反馈数据集和模块化离线 RLHF 基线实现。通过广泛的实验，我们的结果表明，与精心设计的手动奖励相比，收集到的数据集在多个任务中表现出有竞争力的性能，同时也评估了各种设计选择并提出了改进的潜在领域。我们希望建立有价值的开源平台、数据集和基线，以便基于现实人类反馈来促进更强大、可靠的 RLHF 解决方案的开发。

Feb, 2024

超级反馈：通过高质量反馈提升语言模型

通过创建大规模、高质量、多样化的偏好数据集 ULTRAFEEDBACK，我们训练各种模型来展示其有效性，并在多个基准测试中取得最佳表现。

Oct, 2023

数据有效的强化学习高阶函数的典型奖励网络

利用 Proto-RM 框架来增强在受限制的人类反馈条件下的奖励模型和优化语言模型的微调，显著提高了适应性和准确性，并且在数据受限场景中比传统方法要求更少的数据。

Jun, 2024

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法 SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点，并通过替换 PPO 算法和引入 KL divergence 先验，提出了一种新的训练方法。实验结果表明，SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024