May, 2024

NeMo-Aligner:高效模型对齐的可扩展工具包

TL;DR用于大规模语言模型对齐的 NeMo-Aligner 工具包可以高效地扩展到使用数百个 GPU 进行训练,支持 Reinforcement Learning from Human Feedback (RLHF)、Direct Preference Optimization (DPO)、SteerLM、Self-Play Fine-Tuning (SPIN) 等主要模型对齐范式,并具有 Parameter Efficient Fine-Tuning (PEFT) 支持。