分布式深度学习的扩展方法

NIPSNov, 2016

How to scale distributed deep learning?

Peter H. Jin, Qiaochu Yuan, Forrest Iandola, Kurt Keutzer

TL;DR该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Abstract

Training time on large datasets for deep neural networks is the principal workflow bottleneck in a number of important applications of deep learning, such as object classification and detection in automatic driver assistance systems (ADAS). To minimize training time, the training of a deep neural network must be scaled beyond a single machine to as many mach

distributed stochastic gradient descent synchronous approaches asynchronous approaches gossiping sgd resnet architecture

发现论文，激发创造

分布式同步 SGD 的再探讨

本文研究了分布式训练深度学习模型时采用同步优化的可行性，发现同步优化虽然会浪费一些等待时间，但采用备用工作者的方式可以避免异步噪声并加速收敛，同时能够在保证准确性的前提下提高测试准确率。

Apr, 2016

使用同步随机梯度下降进行分布式深度学习

设计并实现了一种分布式多节点同步的 SGD 算法，通过在不改变超参数、压缩数据或更改算法行为的情况下进行详细的分析，实现了 CNN 在数百个节点上的扩展，并展示了记录的训练吞吐量，同时通过在基于以太网的 AWS 集群上训练，使深度学习更加平民化，在 16 个节点上展示了约 14 倍的扩展性。

Feb, 2016

去中心化深度学习的本地异步随机梯度下降

本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步，实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。

Mar, 2022

异步分散并行随机梯度下降

本文提出了一种异步的分布式随机梯度下降算法（AD-PSGD）来解决异构环境下常用的同步算法（如 AllReduce-SGD）和参数服务器 suffer from 的问题，并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。

Oct, 2017

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

通过缩放进行自适应的本地方法

本文旨在将局部训练技术与自适应方法相结合，以开发高效的分布式学习方法，并通过训练神经网络实验验证了方法的性能。

Jun, 2024

Pipe-SGD: 分布式深度神经网络训练的去中心化管道式 SGD 框架

本文提出一种基于 AllReduce 的分布式深度学习训练方法，并通过在四节点 GPU 集群测试，证明具有两个宽度的流水线架构可以将同步和异步训练的优点相结合，可将训练时间提高多达 5.4 倍。

Nov, 2018

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

精确的大型小批量随机梯度下降法：在 1 小时内训练 ImageNet

本文研究了分布式同步随机梯度下降算法在大规模数据训练中的应用，证明了通过采用新的学习率调整规则和温暖启动方法，大批量训练可以克服优化难题，取得和小批量相同的精度，实现了在支持多达 256 个 GPU 的硬件上，在一小时内使用 8,192 个图像的小批量对 ResNet-50 进行有效的训练。

Jun, 2017

异步分布式半随机梯度优化

本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法，采用变量规约技术，可使用常量的学习率，并保证线性收敛到最优解，在 Google 云计算平台上的实验表明，该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。

Aug, 2015