Oct, 2023

大型语言模型预训练的高效参数搜索和并行性扩展研究

TL;DR研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。