MegaScale：将大规模语言模型训练扩展至超过 10,000 个 GPU

Feb, 2024

MegaScale：将大规模语言模型训练扩展至超过 10,000 个 GPU

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Ziheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen...

TL;DR我们介绍了 MegaScale 的设计、实现和工程经验，它是一个用于在超过 10,000 个 GPU 的规模上训练大型语言模型的生产系统。我们采用了一种全栈方法，通过共同设计算法和系统组件来解决训练效率和稳定性方面的挑战，并分享了我们在确保系统稳定性方面的操作经验。

Abstract

We present the design, implementation and engineering experience in building and deploying megascale, a production system for training large language models (LLMs) at the scale of more than 10,000 GPUs. Training

megascale large language models training efficiency stability system components

发现论文，激发创造

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

FusionAI: 基于大规模消费级 GPU 的分布式训练和部署 LLMs

在这篇研究论文中，我们提出了一个分散系统，利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等，我们的性能分析表明，50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。

Sep, 2023

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

数据中心中大型语言模型开发的特征

对大型语言模型进行了深入研究，调查了与以往任务特定的深度学习工作负载之间的差异，探索了资源利用模式，并确定了各种作业故障的影响。通过故障容忍的预训练和评估的解耦调度，提出了优化针对大型语言模型系统的潜在机会。

Mar, 2024

互联网上大规模语言模型的分布式推理和微调

本研究探讨了大型语言模型在成本高效的推理和微调方面的方法，并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议，用于自动分配设备以最大化系统总吞吐量，并展示了这些算法在 Petals 中的应用，该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。

Dec, 2023

使用 DeepSpeed 和 Megatron 训练 Megatron-Turing NLG 530B，一种大规模生成式语言模型

本文描述了用于训练 Megatron-Turing NLG 530B （MT-NLG）的基础架构和 3D 并行方法，重点介绍了训练过程、训练语料库的设计和数据精选技术，以及各种评估结果和新特性。作者展示了 MT-NLG 在几个自然语言处理基准测试中具有更优秀的零点、一点和少点学习精度，并且取得了新的最先进结果。

Jan, 2022

拥有 100 万 GPU 小时，应该如何选择训练语言模型？

本研究旨在构建一个大型语言模型 BLOOM，对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究，并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。

Oct, 2022