ML/DL 模型中数据流图的自动任务并行化

Aug, 2023

ML/DL 模型中数据流图的自动任务并行化

Automatic Task Parallelization of Dataflow Graphs in ML/DL models

Srinjoy Das, Lawrence Rauchwerger

TL;DR我们提出了一种基于关键路径的线性聚类方法，利用机器学习数据流图中的并行路径来优化图的结构，从而加速串行执行速度，并在编译和运行时优于一些当前机制。

Abstract

Several methods exist today to accelerate machine learning(ML) or Deep-Learning(DL) model performance for training and inference. However, modern techniques that rely on various graph and operator →

machine learning deep learning graph optimization parallelism inference

发现论文，激发创造

深度神经网络的数据和模型并行化之外

本文提出了一个名为 SOAP 的深度神经网络并行化搜索空间，并使用指导性随机搜索来发现特定并行计算机的快速并行化策略，并提出了一种新型执行模拟器，可精确预测并行化策略的性能，可将训练吞吐量提高多达 3.8 倍，并提高了可扩展性。

Jul, 2018

GraphLab: 并行机器学习的新框架

通过针对机器学习中常见程序设计模式进行设计，使用 GraphLab 可以实现异步迭代算法的紧凑表达，同时保证数据一致性和高并行性能，将并行性能优化的提升应用于大规模实际问题中，并取得了很好的表现。

Aug, 2014

图管道：通过图管道并行提高 DNN 训练的性能和可扩展性

深度神经网络的管道并行化方法 (GPP) 以及分布式系统 GraphPipe 通过优化微批量进度和并行训练实现了对现有管道并行系统如 PipeDream 和 Piper 的提速和搜索时间的降低。

Jun, 2024

基于多 GPU 平台的模型并行的高效稳健的 DNN 训练

该论文提出了一种基于 SpecTrain 的管道模型并行执行方法，可以在保持训练准确性的前提下，实现高 GPU 利用率，相比数据并行法可提高 8.91 倍的速度。

Sep, 2018

Opara：利用运算符并行性加速 GPU 上的 DNN 推断

提出了一种资源感知和干扰感知的 DNN 操作并行调度框架 Opara，以加速在 GPU 上进行 DNN 推理的执行。通过使用 CUDA Streams 和 CUDA Graph 来自动并行化多个 DNN 操作的执行，并调整操作在 GPU 上的启动顺序，以重叠计算密集型和内存密集型操作的执行，从而加速 DNN 推理。实验证明，Opara 在代表性的 DNN 和基于 Transformer 的模型上效果优于默认的顺序执行的 CUDA Graph 和最先进的 DNN 操作并行系统，分别提高了 1.68 倍和 1.29 倍，同时运行时开销可接受。

Dec, 2023

DEAP：DNN 加速器并行性的设计空间探索

这篇论文展示了硬件和软件的协同设计如何为特定的大型语言模型工作负载创建定制的硬件系统，通过模型并行技术和多加速器仿真框架实现效率度量，重点关注推理工作负载并报告多种软硬件配置下的功耗、周期和延迟度量。

Dec, 2023

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

探索卷积神经网络并行化中的隐藏维度

本文提出了一种层级并行的方法来训练深度卷积神经网络，在这种方法中，每层神经网络都可以应用不同的并行策略以优化训练，通过解决图搜索问题来协同优化每个层的并行化方式。实验结果表明，与现有的并行化方法相比，采用该方法可以提高训练吞吐量，降低通信成本，实现更好的多 GPU 可扩展性，并保持原始网络的准确性。

Feb, 2018

GNNPipe: 使用流水线模型并行加速分布式全图 GNN 训练

采用模型并行而非图并行的分布式全局图神经网络训练方法 GNNPipe，结合基于分块的流水线训练方法以及混合并行性，以减少通信开销并加快训练时间，同时保持相当的模型准确性和收敛速度。

Aug, 2023

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021