Pipette: 大规模自动细粒度语言模型训练配置器用于真实世界集群
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
GPipe 是一种管道并行库,它提供了一种高效进行模型并行化的方式,可以将不同子层序列分别放在不同的加速器上,因此可以有效地将各种不同的网络扩展到巨大的规模,并且能够实现快速的线性加速,通过对两个不同任务的训练,证明了 GPipe 的优势。
Nov, 2018
本研究提出了 PipeTransformer 来提高 Transformer 模型的多节点分布式训练效率,该方法通过自动化管线处理和数据并行来动态调整管线和并行策略,从而实现层的冻结和资源分配,结果表明 PipeTransformer 相较于现有算法可以提高 2.4 倍速度。
Feb, 2021
通过使用自动联邦化管道(FedPipe),我们设计和实现了一种在最小化训练成本的同时不增加推理延迟的联邦学习方法来对大语言模型进行微调,从而加速模型训练并获得比最先进基准更高的准确性。
Apr, 2024
在本研究中,我们提出了一种新的维度,即在单个训练序列中执行流水线并行处理,以用于 Transformer-based 语言模型的高效训练,并开发了一种基于动态规划的算法 TeraPipe,用于进行同步模型并行训练。我们证明,TeraPipe 可以在使用 48 个 p3.16xlarge 实例的 AWS 集群上将最大的包含 1750 亿参数的 GPT-3 模型的训练速度提高 5.0 倍,相比最先进的模型并行方法,具有更细粒度的流水线并行处理。
Feb, 2021
该研究挑战了用于训练大型语言模型的任意 - 任意网络建立的现有范式,通过展示语言模型表现出一种独特的通信模式,其中只有小组 GPU 之间需要高带宽的任意 - 任意通信,以实现近乎最优的训练性能。研究提出了一种新的网络架构,与语言模型的通信需求相似。该架构将集群分为互连的 GPU 集合,通过非阻塞的任意 - 任意高带宽互连,我们将其称为 HB 域。该网络仅连接具有通信需求的 GPU,被称为 “仅轨道连接”,研究表明,我们提出的架构将网络成本减少了 75%,而不会影响 LLM 训练的性能。
Jul, 2023
Holmes 是一个专门为 LLMs 设计的训练框架,通过巧妙构建数据和模型并行策略,在异构 NIC 环境下实现了可扩展性,并在大多数情况下达到接近 RDMA 网络性能的学习效率,同时与其他主流 LLM 框架无缝集成。
Dec, 2023
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023
本文研究了深度神经网络的硬件加速器,并提出了一种具有硬件优势的异步管道并行训练算法。通过引入 Spike Compensation 和 Linear Weight Prediction 两种方法,它有效地减轻了由 Pipelined Backpropagation 的异步性造成的缺点,并优于现有技术。适当的标准化和小批量大小也有助于训练,与 SGD 相比,它能够在 CIFAR-10 和 ImageNet 上为多个网络的训练匹配准确度。
Mar, 2020
采用模型并行而非图并行的分布式全局图神经网络训练方法 GNNPipe,结合基于分块的流水线训练方法以及混合并行性,以减少通信开销并加快训练时间,同时保持相当的模型准确性和收敛速度。
Aug, 2023