该论文提出了一种基于 SpecTrain 的管道模型并行执行方法,可以在保持训练准确性的前提下,实现高 GPU 利用率,相比数据并行法可提高 8.91 倍的速度。
Sep, 2018
本文提出了一个名为 SOAP 的深度神经网络并行化搜索空间,并使用指导性随机搜索来发现特定并行计算机的快速并行化策略,并提出了一种新型执行模拟器,可精确预测并行化策略的性能,可将训练吞吐量提高多达 3.8 倍,并提高了可扩展性。
Jul, 2018
提出了一种名为 DeepPCR 的算法,它通过并行化典型的顺序操作,将计算复杂度从 O (L) 降低到 O (log2L),从而在加速神经网络的训练和推理过程中提供更高的速度。
Sep, 2023
本文提出了一种混合数据模型并行方法用于 Seq2Seq 循环神经网络机器翻译,将模型并行方法应用于 Seq2Seq 模型的 RNN 编码器 - 解码器部分和数据并行方法应用于模型的注意力 - softmax 部分,使用 4 个 GPU 训练和使用 1 个 GPU 训练相比,在不影响 BLEU 分数的情况下获得了 4.13 到 4.20 倍的加速。
Sep, 2019
本研究针对深度神经网络(DNN)的并行训练使用模型平均方法。多 GPU 数据并行化,MPI 进行节点间通信,每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置,研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练,可以实现 9.3 倍和 17 倍的加速,只有少量解码精度的损失。
Jul, 2015
我们提出了一种基于关键路径的线性聚类方法,利用机器学习数据流图中的并行路径来优化图的结构,从而加速串行执行速度,并在编译和运行时优于一些当前机制。
Aug, 2023
使用 DP-ZeRO 系统化解决可训练的巨大 DP 模型的问题,实现深度学习和大型模型的隐私保护训练。
Nov, 2023
本文提出了一种在大型分布式内存计算机上使用小批量随机梯度下降(SGD)训练深度神经网络(DNNs)的集成方法,该方法融合了模型、批次和领域并行性,并分析了通信复杂度和理论批次并行方法的扩展极限。
Dec, 2017
本文提出的图并行算法可在多个 GPU 上分布输入图,从而实现训练数十亿个参数的大型 GNN, 该方法在大规模开放铂族催化剂的数据集上取得了新的最先进结果。
Mar, 2022
我们提出了一种介于同步和异步方法之间的混合数据并行性方法,使用这两种方法训练神经网络,通过适当选择阈值函数来逐渐从异步转为同步的参数聚合,我们证明在一定时间范围内,我们的混合方法优于异步和同步方法。
Jun, 2024