训练神经网络中的综合模型、批处理和领域并行性

Dec, 2017

训练神经网络中的综合模型、批处理和领域并行性

Integrated Model, Batch and Domain Parallelism in Training Neural Networks

Amir Gholami, Ariful Azad, Peter Jin, Kurt Keutzer, Aydin Buluc

TL;DR本文提出了一种在大型分布式内存计算机上使用小批量随机梯度下降（SGD）训练深度神经网络（DNNs）的集成方法，该方法融合了模型、批次和领域并行性，并分析了通信复杂度和理论批次并行方法的扩展极限。

Abstract

We propose a new integrated method of exploiting model, batch and domain parallelism for the training of deep neural networks (DNNs) on large distributed-memory computers using →

deep neural networks parallelism minibatch stochastic gradient descent communication-avoiding algorithms domain parallelism

发现论文，激发创造

基于多 GPU 平台的模型并行的高效稳健的 DNN 训练

该论文提出了一种基于 SpecTrain 的管道模型并行执行方法，可以在保持训练准确性的前提下，实现高 GPU 利用率，相比数据并行法可提高 8.91 倍的速度。

Sep, 2018

深度神经网络分布式训练：并行可扩展性的理论和实践的极限

本文研究 DNN 分布式训练的主要瓶颈问题，结果显示，当前最先进的方法 SGD 存在大量通信问题，而理论上的约束也使得 DNN 训练的扩展性较差。

Sep, 2016

使用模型平均法并行训练深度神经网络的实验

本研究针对深度神经网络（DNN）的并行训练使用模型平均方法。多 GPU 数据并行化，MPI 进行节点间通信，每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置，研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练，可以实现 9.3 倍和 17 倍的加速，只有少量解码精度的损失。

Jul, 2015

并行随机梯度下降的混合方法

我们提出了一种介于同步和异步方法之间的混合数据并行性方法，使用这两种方法训练神经网络，通过适当选择阈值函数来逐渐从异步转为同步的参数聚合，我们证明在一定时间范围内，我们的混合方法优于异步和同步方法。

Jun, 2024

深度学习并行和分布式技术揭秘：并发性分析深入研究

本文综述了 Deep Neural Networks 的并行处理问题，探讨了并行化分布式架构，并详细介绍了并发类型、异步随机优化、通信方案、神经架构搜索等不同方向的研究方法，最终提出了深度学习并行处理的潜在方向。

Feb, 2018

深度神经网络的数据和模型并行化之外

本文提出了一个名为 SOAP 的深度神经网络并行化搜索空间，并使用指导性随机搜索来发现特定并行计算机的快速并行化策略，并提出了一种新型执行模拟器，可精确预测并行化策略的性能，可将训练吞吐量提高多达 3.8 倍，并提高了可扩展性。

Jul, 2018

大规模神经网络训练中的高效通信

本研究提出了一种名为 Linear Pipelining（LP）的新型集合操作技术，用于在神经网络的并行训练中降低通信成本。对 BSP-SGD 等现有方法进行了改进，并在实践中证明该方法降低了通信瓶颈，同时保持 BSP-SGD 吸引人的收敛属性。

Nov, 2016

深度域泛化的批归一化嵌入

该研究提出一种基于批标准化和集成模型的域泛化方法，以在不同和未知的领域中提高机器学习模型的鲁棒性和分类准确性。

Nov, 2020

深度神经网络的高效并行计算中的循环数据并行

通过 Cyclic Data Parallelism 和 Model Parallelism 技术，在训练大型深度学习模型的过程中，减少了内存的需求以及 GPU 的使用，提升了模型的执行效率。

Mar, 2024

通过人工合成的中间标签进行分区神经网络训练

通过将模型划分到多个 GPU 上并生成合成中间标签来训练各个部分，以减少数据通信和保持模型准确性为目标，该研究证实了该方法在减少内存和计算需求的同时实现了类似传统训练方法的测试准确性，从而减轻了训练大型神经网络的资源密集性，为更高效的深度学习模型开发铺平了道路。

Mar, 2024