Jun, 2024

ReaLHF:通过参数重分配优化大型语言模型的 RLHF 训练

TL;DR基于参数重新分配的强化学习来自人类反馈(RLHF)是在大型语言模型(LLM)应用中的一个关键技术。为了克服直接采用监督训练的并行化技术可能导致次优性能的限制,我们提出了一种名为参数分配的新方法,在训练过程中动态重新分配 LLM 参数并适应并行化策略。基于这个想法,我们引入了一种名为 ReaLHF 的创新系统,能够根据所需的算法和硬件配置自动发现和运行 RLHF 训练的高效执行计划。ReaLHF 将 RLHF 的执行计划制定为一个增强数据流图,并采用轻量级成本估算器的定制搜索算法发现高效的执行计划。实验结果表明,与基准相比,ReaLHF 在 LLaMA-2 模型上实现了 2.0-10.6 倍的大幅加速。此外,ReaLHF 生成的执行计划与基于 Megatron-LM 的启发式方法相比,性能提高了平均 26%。ReaLHF 的源代码可以在此链接上公开获取。