May, 2024

OpenRLHF:一个易于使用、可扩展和高性能的 RLHF 框架

TL;DR大型语言模型的尺寸不断增加,其卓越性能使得基于人类反馈的强化学习备受关注。本文提出了一个名为 OpenRLHF 的开源框架,通过使用 Ray、vLLM 和 DeepSpeed 重新设计对四个模型的调度以实现对超过 70B 参数的大型语言模型进行有效的强化学习训练。OpenRLHF 与 Hugging Face 无缝集成,并提供了优化的算法和启动脚本,确保用户友好性。