Oct, 2023
大型语言模型预训练的高效参数搜索和并行性扩展研究
Scaling Studies for Efficient Parameter Search and Parallelism for Large Language Model Pre-training
Michael Benington, Leo Phan, Chris Pierre Paul, Evan Shoemaker, Priyanka Ranade...
TL;DR研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。