MAD Max 超越单节点：在分布式系统上加速大规模机器学习模型

Oct, 2023

MAD Max 超越单节点：在分布式系统上加速大规模机器学习模型

MAD Max Beyond Single-Node: Enabling Large Machine Learning Model Acceleration on Distributed Systems

Samuel Hsia, Alicia Golden, Bilge Acun-Uyan, Newsha Ardalani, Zachary DeVito...

TL;DR基于真实世界的大规模模型训练和数据中心规模基础设施，我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟，在这项工作中，我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件，我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。

Abstract

Training and deploying large machine learning (ML) models is time-consuming and requires significant distributed computing infrastructures. Based on real-world large model training on datacenter-scale infrastructures, we show 14~32% of all GPU hours are spent on communication with no o

large machine learning models distributed computing infrastructures communication latency parallelization hardware-software co-design

发现论文，激发创造

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

多 GPU 平台机器学习训练的通用性能建模

通过数据分配感知性能模型和通信集合的数据移动预测，我们可以在多个 GPU 平台上训练机器学习工作负载，并且能够准确预测迭代训练时间，扩展到其他类型的机器学习工作负载，例如基于 Transformer 的自然语言处理模型，并能够生成洞察力，如快速选择最快的嵌入表分片配置。

Apr, 2024

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

FusionAI: 基于大规模消费级 GPU 的分布式训练和部署 LLMs

在这篇研究论文中，我们提出了一个分散系统，利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等，我们的性能分析表明，50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。

Sep, 2023

PowerAI DDL

本论文介绍了一款软硬协同优化的分布式深度学习系统，通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间，并在 Resnet-101 上取得了 33.8% 的验证精度，系统已被集成到 Tensorflow、Caffe 和 Torch 中。

Aug, 2017

FireCaffe: 在计算集群上深度神经网络训练的近线性加速

本文介绍了 FireCaffe，一个可以在 GPU 集群上成功扩展深度神经网络训练的工具，并提出了一些最佳实践方法以帮助比较不同缩放和加速深度神经网络训练方法的进展。在 ImageNet 上训练 GoogLeNet 和 Network-in-Network 时，当集群有 128 个 GPU 时，取得了 47x 和 39x 的加速效果。

Oct, 2015

MegaScale：将大规模语言模型训练扩展至超过 10,000 个 GPU

我们介绍了 MegaScale 的设计、实现和工程经验，它是一个用于在超过 10,000 个 GPU 的规模上训练大型语言模型的生产系统。我们采用了一种全栈方法，通过共同设计算法和系统组件来解决训练效率和稳定性方面的挑战，并分享了我们在确保系统稳定性方面的操作经验。

Feb, 2024

利用网络内聚合扩展分布式机器学习

SwitchML 是一种通信基元，通过使用可编程交换机数据平面执行培训过程的关键步骤，从而将来自多个网络工作人员的模型更新聚合，与终端主机协议和 ML 框架共同设计以提供高效解决方案，最多可将培训速度加速 5.5 倍。

Feb, 2019

ML/DL 模型中数据流图的自动任务并行化

我们提出了一种基于关键路径的线性聚类方法，利用机器学习数据流图中的并行路径来优化图的结构，从而加速串行执行速度，并在编译和运行时优于一些当前机制。

Aug, 2023

在一天内在单机上训练一个大型视频模型

通过优化 IO、CPU 和 GPU 计算，本文展示了在一天内使用八个消费级 GPU 在一台电脑上进行最先进的视频模型训练的高效管道，与之前的工作相比，我们的管道在相同的架构下仅需 $rac {1}{8}$ 的计算量即可达到更高的准确性。

Sep, 2023