Nov, 2023
大规模分布式模型训练的高效并行化布局
Efficient Parallelization Layouts for Large-Scale Distributed Model
Training
TL;DR通过对大型语言模型的多种训练配置进行全面的消融研究,我们总结出几个关键建议,以实现最高效的训练,例如,我们发现使用微批量大小为1通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性,并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果,尤其是在训练13B模型时,模型FLOPs利用率达到了70.5%。