TAP: 通过张量自动并行化加速大规模深度神经网络训练

Feb, 2023

TAP: 通过张量自动并行化加速大规模深度神经网络训练

TAP: Accelerating Large-Scale DNN Training Through Tensor Automatic Parallelisation

Ziji Shi, Le Jiang, Ang Wang, Jie Zhang, Xianyan Jia...

TL;DR本文提出了一种模型并行框架 TAP，利用神经网络作为有向无环图的性质，设计了一种图剪枝算法以高效地搜索最佳的数据和张量并行计划，实验表明 TAP 比现有自动并行化框架快 20-160 倍，并且其发现的并行化计划比专家设计的计划具有竞争力。

Abstract

model parallelism has become necessary to train large neural networks. However, finding a suitable model parallel schedule for an arbitrary neural network is a non-trivial task due to the exploding search space.

model parallelism tap neural networks graph pruning automatic parallelism

发现论文，激发创造

ML/DL 模型中数据流图的自动任务并行化

我们提出了一种基于关键路径的线性聚类方法，利用机器学习数据流图中的并行路径来优化图的结构，从而加速串行执行速度，并在编译和运行时优于一些当前机制。

Aug, 2023

深度神经网络的数据和模型并行化之外

本文提出了一个名为 SOAP 的深度神经网络并行化搜索空间，并使用指导性随机搜索来发现特定并行计算机的快速并行化策略，并提出了一种新型执行模拟器，可精确预测并行化策略的性能，可将训练吞吐量提高多达 3.8 倍，并提高了可扩展性。

Jul, 2018

UniAP: 统一的跨层和内层自动并行化方法：混合整数二次规划

深度学习模型的训练时间长依然是一个关键问题，提出了自动并行化来解决这个问题，并提出了 UniAP 方法来统一内部和外部自动并行化，实验证明 UniAP 在吞吐量上超过了现有方法 1.70 倍，并且减少了搜索时间 16 倍。

Jul, 2023

多任务学习的任务自适应参数共享

为了在多任务学习中最小化资源使用和任务之间的竞争，本文提出了一种名为 TAPS 的方法，其通过自适应修改小的任务特定层子集来将基本模型调整到新任务中。与其他方法相比，TAPS 在保持高精度同时引入很少的任务特定参数方面表现优异。

Mar, 2022

GraphPAS: 图神经网络的并行架构搜索

本文提出了一种并行的图神经网络架构搜索框架 (GraphPAS)，采用分享式进化学习并动态采用架构信息熵进行变异选择概率，从而提高搜索效率和准确性。实验结果表明，GraphPAS 在效率和准确性上都优于现有技术。

Dec, 2021

KAPLA：可扩展神经网络加速器数据流的实用表示和快速求解

本文提出了面向可扩展多节点神经网络体系结构上的时间和空间调度的综合性和实用性数据流表示，利用一组形式化的张量中心指令，构建出一个通用、优化和快速的数据流求解器 KAPLA，它在训练和推理中实现了 2.2% 和 7.7% 的能耗开销，并且在效果和速度上胜过了随机和基于机器学习的方法。

Jun, 2023

图管道：通过图管道并行提高 DNN 训练的性能和可扩展性

深度神经网络的管道并行化方法 (GPP) 以及分布式系统 GraphPipe 通过优化微批量进度和并行训练实现了对现有管道并行系统如 PipeDream 和 Piper 的提速和搜索时间的降低。

Jun, 2024

Saturn：面向大规模模型深度学习工作负载的优化数据系统

大型语言模型与模型并行化的信息系统架构（SPASE）降低了模型选择运行时间。

Sep, 2023

DEAP：DNN 加速器并行性的设计空间探索

这篇论文展示了硬件和软件的协同设计如何为特定的大型语言模型工作负载创建定制的硬件系统，通过模型并行技术和多加速器仿真框架实现效率度量，重点关注推理工作负载并报告多种软硬件配置下的功耗、周期和延迟度量。

Dec, 2023

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021