Saturn: 高效的多大模型深度学习

Nov, 2023

Saturn: Efficient Multi-Large-Model Deep Learning

Kabir Nagrecha, Arun Kumar

TL;DR我们提出了 Saturn，这是一个新的数据系统，旨在提高多大模型训练的效率，通过解决并行技术选择、GPU 分布以及调度等相关问题，我们建立了一个新的系统架构，通过联合优化方法，在模型选择中运行时间较传统深度学习实践缩短了 39-49%。

Abstract

In this paper, we propose saturn, a new data system to improve the efficiency of →

saturn data system multi-large-model training efficiency joint-optimization approach

发现论文，激发创造

Saturn：面向大规模模型深度学习工作负载的优化数据系统

大型语言模型与模型并行化的信息系统架构（SPASE）降低了模型选择运行时间。

Sep, 2023

超级计算机规模的图像分类

本文介绍了三个与系统相关的优化方案 —— 分布式批量归一化控制每个副本批量大小、输入管道优化维持模型吞吐量和二维鼓形约减加速梯度求和 —— 将这些优化相结合，在 1024 芯片 TPU v3 Pod 上以超过 105 万张 / 秒的训练吞吐量，在 2.2 分钟内将 ResNet-50 在 ImageNet 上训练到 76.3％的准确度，且没有精度降低。

Nov, 2018

MAD Max 超越单节点：在分布式系统上加速大规模机器学习模型

基于真实世界的大规模模型训练和数据中心规模基础设施，我们展示了 14~32% 的 GPU 时间用于非重叠计算的通信。为了最小化未完成的通信延迟，在这项工作中，我们开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。通过使用现代 GPU 训练硬件上的真实大规模 ML 模型套件，我们分别展示了预训练和推理场景的 2.24 倍和 5.27 倍的吞吐量提升潜力。

Oct, 2023

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

MARS：在自适应多加速器系统上利用多层并行性优化 DNN 工作负载

基于深度神经网络的多加速器系统中，选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题，我们提出了一个名为 MARS 的新型映射框架，可以执行计算感知的加速器选择，并应用通信感知的分片策略来最大化并行性，实验证明，与基准相比，MARS 可以平均减少 32.2% 的延迟，并且相对于对应的最先进方法，可以减少 59.4% 的异构模型的延迟。

Jul, 2023

通过平衡内存负载优化改善自动并行训练

本文介绍了一种系统框架 Galvatron-BMW，集成了多种普遍的并行性维度，并自动识别最高效的混合并行性策略，该系统在不同的 Transformer 模型下展示了 Galvatron-BMW 自动分布式训练的能力。

Jul, 2023

大规模深度学习优化：综述

本文概述了在大规模深度学习中如何优化模型的准确性和效率，讨论了优化中使用的算法、大批量训练中出现的泛化差距问题，并回顾了最新的解决通信负担和减少内存占用的策略。

Nov, 2021

PowerAI DDL

本论文介绍了一款软硬协同优化的分布式深度学习系统，通过使用多环通信模式和 GPU 的大规模并行计算等技术大幅度缩短了深度神经网络的训练时间，并在 Resnet-101 上取得了 33.8% 的验证精度，系统已被集成到 Tensorflow、Caffe 和 Torch 中。

Aug, 2017

Hulk: 用于优化区域分布式计算系统的图神经网络

使用修改后的图神经网络，我们提出了一种名为 Hulk 的新颖解决方案，优化在分布式计算系统中训练大规模深度学习模型过程中的数据通信效率，可提高时间效率超过 20％。

Feb, 2023

DEAP：DNN 加速器并行性的设计空间探索

这篇论文展示了硬件和软件的协同设计如何为特定的大型语言模型工作负载创建定制的硬件系统，通过模型并行技术和多加速器仿真框架实现效率度量，重点关注推理工作负载并报告多种软硬件配置下的功耗、周期和延迟度量。

Dec, 2023