ReaLHF：通过参数重分配优化大型语言模型的 RLHF 训练

Jun, 2024

ReaLHF：通过参数重分配优化大型语言模型的 RLHF 训练

ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation

Zhiyu Mei, Wei Fu, Kaiwei Li, Guangju Wang, Huanchen Zhang...

TL;DR基于参数重新分配的强化学习来自人类反馈（RLHF）是在大型语言模型（LLM）应用中的一个关键技术。为了克服直接采用监督训练的并行化技术可能导致次优性能的限制，我们提出了一种名为参数分配的新方法，在训练过程中动态重新分配 LLM 参数并适应并行化策略。基于这个想法，我们引入了一种名为 ReaLHF 的创新系统，能够根据所需的算法和硬件配置自动发现和运行 RLHF 训练的高效执行计划。ReaLHF 将 RLHF 的执行计划制定为一个增强数据流图，并采用轻量级成本估算器的定制搜索算法发现高效的执行计划。实验结果表明，与基准相比，ReaLHF 在 LLaMA-2 模型上实现了 2.0-10.6 倍的大幅加速。此外，ReaLHF 生成的执行计划与基于 Megatron-LM 的启发式方法相比，性能提高了平均 26％。ReaLHF 的源代码可以在此链接上公开获取。

Abstract

reinforcement learning from human feedback (RLHF) stands as a pivotal technique in empowering large language model (LLM) applications. Since RLHF involves diverse computational workloads and intricate dependencies among multiple LLMs, directly adopting parallelization techniques from s

reinforcement learning from human feedback large language model applications parameter reallocation efficient execution plans rlhf training

发现论文，激发创造

OpenRLHF：一个易于使用、可扩展和高性能的 RLHF 框架

大型语言模型的尺寸不断增加，其卓越性能使得基于人类反馈的强化学习备受关注。本文提出了一个名为 OpenRLHF 的开源框架，通过使用 Ray、vLLM 和 DeepSpeed 重新设计对四个模型的调度以实现对超过 70B 参数的大型语言模型进行有效的强化学习训练。OpenRLHF 与 Hugging Face 无缝集成，并提供了优化的算法和启动脚本，确保用户友好性。

May, 2024

PERL: 从人类反馈学习的参数高效强化学习

使用参数高效的强化学习（PERL）方法，研究了从人类反馈中进行增强学习的方法，该方法能够降低计算复杂度并提高模型的性能，为大型语言模型的对齐技术提供了可能性。

Mar, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

RLHF 工作流程：从奖励建模到在线强化学习

我们介绍了在线迭代强化学习（RLHF）的工作流程，通过构建偏好模型和使用监督微调和迭代 RLHF，我们在大规模语言模型方面取得了令人印象深刻的性能，通过详细的实现指南，我们提供了一种易于复现的在线迭代 RLHF 方法。

May, 2024

ChatGLM-RLHF：大型语言模型与人类反馈的对齐实践

ChatGLM-RLHF 是一种从人类反馈中进行强化学习的系统，通过收集人类偏好数据、训练奖励模型和优化策略等方式，解决了与人类偏好的对齐问题，在大规模训练中稳定奖励方差、实现模型并行性并设计正则化约束以避免灾难性遗忘，通过实验证明在中文对齐任务中与 ChatGLM-SFT 相比，ChatGLM-RLHF 取得了平均 15% 的更多胜利，本研究实践了利用人类偏好与语言模型对齐的方法，并提供了 RLHF 实现中的挑战与解决方案的见解。

Apr, 2024

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法 SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点，并通过替换 PPO 算法和引入 KL divergence 先验，提出了一种新的训练方法。实验结果表明，SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

Proxy-RLHF: 大规模语言模型中分离生成与对齐的代理模型

我们介绍了一种代理强化学习方法（Proxy-RLHF），该方法解耦了生成和对齐大型语言模型的过程，以较低的计算成本实现与人类价值观的对齐。

Mar, 2024

SAIL：大型语言模型的自我改进高效在线对齐

在线学习对于语言模型的对齐与优化是至关重要的，本文提出了一种基于双层优化的在线对齐方法，并通过探索回应和调节偏好标签来迭代生成新样本和改进模型对齐效果，以实现自我提升和广义化先前的在线学习方法。这种方法相比于现有的迭代在线学习方法，在开源数据集上显著提高了对齐性能，并具有极小的计算开销。

Jun, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023