May, 2024
OpenRLHF:一个易于使用、可扩展和高性能的 RLHF 框架
OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang...
TL;DR大型语言模型的尺寸不断增加,其卓越性能使得基于人类反馈的强化学习备受关注。本文提出了一个名为 OpenRLHF 的开源框架,通过使用 Ray、vLLM 和 DeepSpeed 重新设计对四个模型的调度以实现对超过 70B 参数的大型语言模型进行有效的强化学习训练。OpenRLHF 与 Hugging Face 无缝集成,并提供了优化的算法和启动脚本,确保用户友好性。