针对大型语言模型的前沿分布式训练优化
本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法,并且通过在 WikiText103,LAMBADA 和 RACE 数据集中取得了最先进的结果,证明了大型语言模型可以进一步推进最先进的技术。
Sep, 2019
本研究探讨了大型语言模型在成本高效的推理和微调方面的方法,并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议,用于自动分配设备以最大化系统总吞吐量,并展示了这些算法在 Petals 中的应用,该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。
Dec, 2023
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量,并发现对于计算优化的训练,模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla,该模型在大范围的下游评估任务中均匀且显著地优于 Gopher,GPT-3,Jurassic-1 和 Megatron-Turing NLG。
Mar, 2022
在预训练基于互联网规模无标签数据的基础模型 (Foundation Models,FMs) 中,研究增至十亿级参数规模的 FMs 和高性能计算 (HPC) 训练,以应用于地理空间图像应用中,取得了较小规模模型的显著准确率提升。
Apr, 2024
通过对大型语言模型的多种训练配置进行全面的消融研究,我们总结出几个关键建议,以实现最高效的训练,例如,我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性,并且还会导致更大的管道延迟。我们最高效的配置使得在一系列模型规模上实现了最先进的训练效率结果,尤其是在训练 13B 模型时,模型 FLOPs 利用率达到了 70.5%。
Nov, 2023
通过硬件为中心的方法,本研究探讨了如何将大型语言模型 (LLMs) 应用于现代边缘计算系统,并使用联邦学习 (FL) 对 FLAN-T5 模型家族进行微调,以进行文本摘要任务。通过与数据中心 GPU 的比较,我们评估了边缘计算系统的当前能力以及它们在 LLM FL 工作负载方面的潜力,并展示了在边缘端实现更大计算效率的潜力与下一步的发展方向。
Oct, 2023
通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试,本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。
Nov, 2023
我们介绍了 MegaScale 的设计、实现和工程经验,它是一个用于在超过 10,000 个 GPU 的规模上训练大型语言模型的生产系统。我们采用了一种全栈方法,通过共同设计算法和系统组件来解决训练效率和稳定性方面的挑战,并分享了我们在确保系统稳定性方面的操作经验。
Feb, 2024