PaSE:高效DNN训练的并行化策略
该研究通过标准批处理和数据并行技术,在单个节点环境中将吞吐量提高至少5.5倍,并在多节点环境中研究了异步并行化对训练时间的影响,并提出了一种高效的超参数优化器,以选择资源分配方式以最小化收敛所需的总时间。
Jun, 2016
本文研究DNN分布式训练的主要瓶颈问题,结果显示,当前最先进的方法SGD存在大量通信问题,而理论上的约束也使得DNN训练的扩展性较差。
Sep, 2016
本文综述了目前深度神经网络的应用及其在计算机视觉、语音识别、机器人等AI任务中的高精度表现,同时也阐述了深度神经网络大规模部署所面临的高算力成本和能效问题,并提出了硬件设计、算法优化等多种解决方案以提高能效和算力,最后对比了各种深度神经网络的设计指标并展示了很多发展资源。
Mar, 2017
本文提出了一种在大型分布式内存计算机上使用小批量随机梯度下降(SGD)训练深度神经网络(DNNs)的集成方法,该方法融合了模型、批次和领域并行性,并分析了通信复杂度和理论批次并行方法的扩展极限。
Dec, 2017
本文提出了一种层级并行的方法来训练深度卷积神经网络,在这种方法中,每层神经网络都可以应用不同的并行策略以优化训练,通过解决图搜索问题来协同优化每个层的并行化方式。 实验结果表明,与现有的并行化方法相比,采用该方法可以提高训练吞吐量,降低通信成本,实现更好的多GPU可扩展性,并保持原始网络的准确性。
Feb, 2018
本文综述了Deep Neural Networks的并行处理问题,探讨了并行化分布式架构,并详细介绍了并发类型、异步随机优化、通信方案、神经架构搜索等不同方向的研究方法,最终提出了深度学习并行处理的潜在方向。
Feb, 2018
该论文提出了一种基于SpecTrain的管道模型并行执行方法,可以在保持训练准确性的前提下,实现高GPU利用率,相比数据并行法可提高8.91倍的速度。
Sep, 2018
本文介绍了一种支持高效内存管道并行处理的系统——PipeDream-2BW, 通过新型的流水线和权重梯度合并策略以及双缓冲器来实现大模型训练的加速。PipeDream-2BW 自动将模型划分到可用的硬件资源上,并考虑加速器的内存容量和互连拓扑等硬件限制,可以将大型 GPT 和 BERT 语言模型的训练速度提高最多 20 倍,并保持模型精度相似。
Jun, 2020
数据中心中的异构深度神经网络调度器利用混合整数线性规划和基于模块化的启发式方法,通过自动分区和设备映射,优化了深度神经网络的计算性能并显著提高了解决方案的质量,可用于调度大型语言模型跨多个异构服务器。
Jul, 2023
研究通过应用Gradient Accumulation、Automatic Mixed Precision和Pin Memory等方法来加速深度神经网络的训练过程,并证明这些方法能够显著提高训练效率,为深度学习过程的改进提供重要见解。
Dec, 2023