PaSE：高效DNN训练的并行化策略

Jul, 2024

PaSE: Parallelization Strategies for Efficient DNN Training

Venmugil Elango

TL;DR本文提出了一种从计算图中自动找到高效并行化策略的方法，并通过对各种深度神经网络进行评估，发现其策略在所有案例中均优于基线数据并行化策略，且性能优于专家设计的策略和最先进的方法。

Abstract

Training a deep neural network (DNN) requires substantial computational and memory requirements. It is common to use multiple devices to train a DNN to reduce the overall training time. There are several choices to parallelize each layer in a DNN. Exhaustively searching this list to fi

发现论文，激发创造

Omnivore: 一种用于在CPU和GPU上进行多设备深度学习的优化器

该研究通过标准批处理和数据并行技术，在单个节点环境中将吞吐量提高至少5.5倍，并在多节点环境中研究了异步并行化对训练时间的影响，并提出了一种高效的超参数优化器，以选择资源分配方式以最小化收敛所需的总时间。

Jun, 2016

深度神经网络分布式训练：并行可扩展性的理论和实践的极限

本文研究DNN分布式训练的主要瓶颈问题，结果显示，当前最先进的方法SGD存在大量通信问题，而理论上的约束也使得DNN训练的扩展性较差。

Sep, 2016

深度神经网络的有效处理：教程和概述

本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等AI任务中的高精度表现，同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题，并提出了硬件设计、算法优化等多种解决方案以提高能效和算力，最后对比了各种深度神经网络的设计指标并展示了很多发展资源。

Mar, 2017

训练神经网络中的综合模型、批处理和领域并行性

本文提出了一种在大型分布式内存计算机上使用小批量随机梯度下降（SGD）训练深度神经网络（DNNs）的集成方法，该方法融合了模型、批次和领域并行性，并分析了通信复杂度和理论批次并行方法的扩展极限。

Dec, 2017

探索卷积神经网络并行化中的隐藏维度

本文提出了一种层级并行的方法来训练深度卷积神经网络，在这种方法中，每层神经网络都可以应用不同的并行策略以优化训练，通过解决图搜索问题来协同优化每个层的并行化方式。实验结果表明，与现有的并行化方法相比，采用该方法可以提高训练吞吐量，降低通信成本，实现更好的多GPU可扩展性，并保持原始网络的准确性。

Feb, 2018

深度学习并行和分布式技术揭秘：并发性分析深入研究

本文综述了Deep Neural Networks的并行处理问题，探讨了并行化分布式架构，并详细介绍了并发类型、异步随机优化、通信方案、神经架构搜索等不同方向的研究方法，最终提出了深度学习并行处理的潜在方向。

Feb, 2018

基于多GPU平台的模型并行的高效稳健的DNN训练

该论文提出了一种基于SpecTrain的管道模型并行执行方法，可以在保持训练准确性的前提下，实现高GPU利用率，相比数据并行法可提高8.91倍的速度。

Sep, 2018

高效使用内存的管道并行深度神经网络训练

本文介绍了一种支持高效内存管道并行处理的系统——PipeDream-2BW, 通过新型的流水线和权重梯度合并策略以及双缓冲器来实现大模型训练的加速。PipeDream-2BW 自动将模型划分到可用的硬件资源上，并考虑加速器的内存容量和互连拓扑等硬件限制，可以将大型 GPT 和 BERT 语言模型的训练速度提高最多 20 倍，并保持模型精度相似。

Jun, 2020

DiviML: 模块化启发式算法用于神经网络在异构平台上的映射

数据中心中的异构深度神经网络调度器利用混合整数线性规划和基于模块化的启发式方法，通过自动分区和设备映射，优化了深度神经网络的计算性能并显著提高了解决方案的质量，可用于调度大型语言模型跨多个异构服务器。

Jul, 2023

加速神经网络训练：简要回顾

研究通过应用Gradient Accumulation、Automatic Mixed Precision和Pin Memory等方法来加速深度神经网络的训练过程，并证明这些方法能够显著提高训练效率，为深度学习过程的改进提供重要见解。

Dec, 2023