深度神经网络的高效并行计算中的循环数据并行

Mar, 2024

深度神经网络的高效并行计算中的循环数据并行

Cyclic Data Parallelism for Efficient Parallelism of Deep Neural Networks

Louis Fournier, Edouard Oyallon

TL;DR通过 Cyclic Data Parallelism 和 Model Parallelism 技术，在训练大型深度学习模型的过程中，减少了内存的需求以及 GPU 的使用，提升了模型的执行效率。

Abstract

training large deep learning models requires parallelization techniques to scale. In existing methods such as Data Parallelism or ZeRO-DP,

training deep learning parallelization cyclic data parallelism model parallelism

发现论文，激发创造

基于多 GPU 平台的模型并行的高效稳健的 DNN 训练

该论文提出了一种基于 SpecTrain 的管道模型并行执行方法，可以在保持训练准确性的前提下，实现高 GPU 利用率，相比数据并行法可提高 8.91 倍的速度。

Sep, 2018

深度神经网络的数据和模型并行化之外

本文提出了一个名为 SOAP 的深度神经网络并行化搜索空间，并使用指导性随机搜索来发现特定并行计算机的快速并行化策略，并提出了一种新型执行模拟器，可精确预测并行化策略的性能，可将训练吞吐量提高多达 3.8 倍，并提高了可扩展性。

Jul, 2018

DeepPCR: 神经网络中的并行化顺序操作

提出了一种名为 DeepPCR 的算法，它通过并行化典型的顺序操作，将计算复杂度从 O (L) 降低到 O (log2L)，从而在加速神经网络的训练和推理过程中提供更高的速度。

Sep, 2023

序列到序列递归神经网络机器翻译的混合数据 - 模型并行训练

本文提出了一种混合数据模型并行方法用于 Seq2Seq 循环神经网络机器翻译，将模型并行方法应用于 Seq2Seq 模型的 RNN 编码器 - 解码器部分和数据并行方法应用于模型的注意力 - softmax 部分，使用 4 个 GPU 训练和使用 1 个 GPU 训练相比，在不影响 BLEU 分数的情况下获得了 4.13 到 4.20 倍的加速。

Sep, 2019

使用模型平均法并行训练深度神经网络的实验

本研究针对深度神经网络（DNN）的并行训练使用模型平均方法。多 GPU 数据并行化，MPI 进行节点间通信，每隔几个 minibatches 进行模型平均。针对不同的学习速度、平均频率和 minibatch 尺寸探索最佳设置，研究发现 “NG-SGD” 和 “RBM” 预训练有利于基于参数平均的模型训练，可以实现 9.3 倍和 17 倍的加速，只有少量解码精度的损失。

Jul, 2015

ML/DL 模型中数据流图的自动任务并行化

我们提出了一种基于关键路径的线性聚类方法，利用机器学习数据流图中的并行路径来优化图的结构，从而加速串行执行速度，并在编译和运行时优于一些当前机制。

Aug, 2023

差分隐私下的零冗余分布式学习

使用 DP-ZeRO 系统化解决可训练的巨大 DP 模型的问题，实现深度学习和大型模型的隐私保护训练。

Nov, 2023

训练神经网络中的综合模型、批处理和领域并行性

本文提出了一种在大型分布式内存计算机上使用小批量随机梯度下降（SGD）训练深度神经网络（DNNs）的集成方法，该方法融合了模型、批次和领域并行性，并分析了通信复杂度和理论批次并行方法的扩展极限。

Dec, 2017

针对原子模拟的十亿参数图神经网络训练

本文提出的图并行算法可在多个 GPU 上分布输入图，从而实现训练数十亿个参数的大型 GNN，该方法在大规模开放铂族催化剂的数据集上取得了新的最先进结果。

Mar, 2022

并行随机梯度下降的混合方法

我们提出了一种介于同步和异步方法之间的混合数据并行性方法，使用这两种方法训练神经网络，通过适当选择阈值函数来逐渐从异步转为同步的参数聚合，我们证明在一定时间范围内，我们的混合方法优于异步和同步方法。

Jun, 2024