GPU 异步随机梯度下降加速神经网络训练

Dec, 2013

GPU 异步随机梯度下降加速神经网络训练

GPU Asynchronous Stochastic Gradient Descent to Speed Up Neural Network Training

Thomas Paine, Hailin Jin, Jianchao Yang, Zhe Lin, Thomas Huang

TL;DR本文介绍了一种新的系统 ——GPU A-SGD，它同时利用了模型并行和数据并行的方法，加快了卷积神经网络的训练速度，从而可以使大型网络在较短时间内训练大型数据集。

Abstract

The ability to train large-scale neural networks has resulted in state-of-the-art performance in many areas of computer vision. These results have largely come from computational break throughs of two forms: mode

neural networks model parallelism data parallelism gpu a-sgd computer vision

发现论文，激发创造

并行随机梯度下降的混合方法

我们提出了一种介于同步和异步方法之间的混合数据并行性方法，使用这两种方法训练神经网络，通过适当选择阈值函数来逐渐从异步转为同步的参数聚合，我们证明在一定时间范围内，我们的混合方法优于异步和同步方法。

Jun, 2024

异步并行随机梯度下降 - 可扩展分布式机器学习算法的数值核心

本文提出了一种利用异步单向通信范例的新型并行更新算法 ASGD，相较于现有方法，ASGD 具有更快（或至少相当）的收敛速度，接近于线性的缩放以及稳定的准确性，在大规模机器学习问题中具有应用前景。

May, 2015

快速异步并行随机梯度下降

本文提出了一种名为 AsySVRG 的快速异步并行 SGD 方法，能够在收敛速度和计算成本方面优于现有的 Hogwild！等最先进的并行 SGD 方法。

Aug, 2015

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

基于多 GPU 平台的模型并行的高效稳健的 DNN 训练

该论文提出了一种基于 SpecTrain 的管道模型并行执行方法，可以在保持训练准确性的前提下，实现高 GPU 利用率，相比数据并行法可提高 8.91 倍的速度。

Sep, 2018

非凸优化的异步并行随机梯度

本研究探讨了两种异步并行随机梯度下降的实现方式，并证明了它们的收敛率均为 O (1 / 根号 K)，且在工作者数受到限制的情况下可实现线性加速。

Jun, 2015

异步分散并行随机梯度下降

本文提出了一种异步的分布式随机梯度下降算法（AD-PSGD）来解决异构环境下常用的同步算法（如 AllReduce-SGD）和参数服务器 suffer from 的问题，并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。

Oct, 2017

卷积网络的大批量训练

本文介绍了一种新的大批量训练算法：LARS，该算法采用分层自适应速率缩放，可使得尽管使用大批量训练，Alexnet 和 Resnet-50 的准确性不会降低。

Aug, 2017

具有结构化数据的高效异步随机梯度算法

该研究探讨了通过 Kronecker 结构加速训练数据输入的方法，从而在数据维度的次线性时间内完成每次迭代。

May, 2023

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015