Saturn: 高效的多大模型深度学习
本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合,在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量,在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3%的准确度,且没有精度降低。
Nov, 2018
基于真实世界的大规模模型训练和数据中心规模基础设施,我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟,在这项工作中,我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件,我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。
Oct, 2023
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
基于深度神经网络的多加速器系统中,选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题,我们提出了一个名为 MARS 的新型映射框架,可以执行计算感知的加速器选择,并应用通信感知的分片策略来最大化并行性,实验证明,与基准相比,MARS 可以平均减少 32.2% 的延迟,并且相对于对应的最先进方法,可以减少 59.4% 的异构模型的延迟。
Jul, 2023
本文介绍了一种系统框架 Galvatron-BMW,集成了多种普遍的并行性维度,并自动识别最高效的混合并行性策略,该系统在不同的 Transformer 模型下展示了 Galvatron-BMW 自动分布式训练的能力。
Jul, 2023
本文概述了在大规模深度学习中如何优化模型的准确性和效率,讨论了优化中使用的算法、大批量训练中出现的泛化差距问题,并回顾了最新的解决通信负担和减少内存占用的策略。
Nov, 2021
本论文介绍了一款软硬协同优化的分布式深度学习系统,通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间,并在 Resnet-101 上取得了 33.8% 的验证精度,系统已被集成到 Tensorflow、Caffe 和 Torch 中。
Aug, 2017
使用修改后的图神经网络,我们提出了一种名为 Hulk 的新颖解决方案,优化在分布式计算系统中训练大规模深度学习模型过程中的数据通信效率,可提高时间效率超过 20%。
Feb, 2023
这篇论文展示了硬件和软件的协同设计如何为特定的大型语言模型工作负载创建定制的硬件系统,通过模型并行技术和多加速器仿真框架实现效率度量,重点关注推理工作负载并报告多种软硬件配置下的功耗、周期和延迟度量。
Dec, 2023