May, 2024
NeMo-Aligner:高效模型对齐的可扩展工具包
NeMo-Aligner: Scalable Toolkit for Efficient Model Alignment
Gerald Shen, Zhilin Wang, Olivier Delalleau, Jiaqi Zeng, Yi Dong...
TL;DR用于大规模语言模型对齐的 NeMo-Aligner 工具包可以高效地扩展到使用数百个 GPU 进行训练,支持 Reinforcement Learning from Human Feedback (RLHF)、Direct Preference Optimization (DPO)、SteerLM、Self-Play Fine-Tuning (SPIN) 等主要模型对齐范式,并具有 Parameter Efficient Fine-Tuning (PEFT) 支持。