Oct, 2023
大型语言模型预训练的高效参数搜索和并行性扩展研究
Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training
TL;DR研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括5个编码解码器LLM(从5.8亿到130亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软DeepSpeed Zero Redundancy Optimizer (ZeRO)阶段。