训练神经网络中的综合模型、批处理和领域并行性
该论文提出了一种基于 SpecTrain 的管道模型并行执行方法,可以在保持训练准确性的前提下,实现高 GPU 利用率,相比数据并行法可提高 8.91 倍的速度。
Sep, 2018
本文研究 DNN 分布式训练的主要瓶颈问题,结果显示,当前最先进的方法 SGD 存在大量通信问题,而理论上的约束也使得 DNN 训练的扩展性较差。
Sep, 2016
本研究针对深度神经网络(DNN)的并行训练使用模型平均方法。多 GPU 数据并行化,MPI 进行节点间通信,每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置,研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练,可以实现 9.3 倍和 17 倍的加速,只有少量解码精度的损失。
Jul, 2015
我们提出了一种介于同步和异步方法之间的混合数据并行性方法,使用这两种方法训练神经网络,通过适当选择阈值函数来逐渐从异步转为同步的参数聚合,我们证明在一定时间范围内,我们的混合方法优于异步和同步方法。
Jun, 2024
本文综述了 Deep Neural Networks 的并行处理问题,探讨了并行化分布式架构,并详细介绍了并发类型、异步随机优化、通信方案、神经架构搜索等不同方向的研究方法,最终提出了深度学习并行处理的潜在方向。
Feb, 2018
本文提出了一个名为 SOAP 的深度神经网络并行化搜索空间,并使用指导性随机搜索来发现特定并行计算机的快速并行化策略,并提出了一种新型执行模拟器,可精确预测并行化策略的性能,可将训练吞吐量提高多达 3.8 倍,并提高了可扩展性。
Jul, 2018
本研究提出了一种名为 Linear Pipelining(LP)的新型集合操作技术,用于在神经网络的并行训练中降低通信成本。 对 BSP-SGD 等现有方法进行了改进,并在实践中证明该方法降低了通信瓶颈,同时保持 BSP-SGD 吸引人的收敛属性。
Nov, 2016
通过 Cyclic Data Parallelism 和 Model Parallelism 技术,在训练大型深度学习模型的过程中,减少了内存的需求以及 GPU 的使用,提升了模型的执行效率。
Mar, 2024
通过将模型划分到多个 GPU 上并生成合成中间标签来训练各个部分,以减少数据通信和保持模型准确性为目标,该研究证实了该方法在减少内存和计算需求的同时实现了类似传统训练方法的测试准确性,从而减轻了训练大型神经网络的资源密集性,为更高效的深度学习模型开发铺平了道路。
Mar, 2024