分布式深度学习中模型准确性与运行时间的权衡：一个系统性研究

Sep, 2015

分布式深度学习中模型准确性与运行时间的权衡：一个系统性研究

Model Accuracy and Runtime Tradeoff in Distributed Deep Learning:A Systematic Study

Suyog Gupta, Wei Zhang, Fei Wang

TL;DR本文提出了 Rudra—— 一种参数服务器为基础的分布式计算框架，通过异步随机梯度下降算法的变体，研究了同步协议、过期的梯度更新、小批量大小、学习速率和学习者数量对运行时性能和模型精度的影响，并提出了一种新的学习率调制策略和同步协议，这可以有效地限制梯度在过期期间的误差，提高运行时性能并实现良好的模型精度。此外，我们揭示了一种分布式神经网络的原则：随着系统中增加了更多的学习者，每位学习者的最小批量大小应相应减小以保持模型精度，并使用常用的图像分类基准数据集 CIFAR10 和 ImageNet 进行验证。

Abstract

This paper presents Rudra, a parameter server based distributed computing framework tuned for training large-scale deep neural networks. Using variants of the →

distributed computing deep neural networks asynchronous stochastic gradient descent learning rate modulation image classification

发现论文，激发创造

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

Ravnest：异构设备上的去中心化异步训练

该论文提出了一种异步分布式训练方法，利用互联网连接的具有有限资源的普通异构个人电脑的计算能力，在大型现代深度学习模型上取得了良好的性能指标，通过将计算节点高效地组织成具有相似数据传输速度和计算能力的集群，避免了每个节点承载整个模型，并采用并行多环全局参数平均方法实现全局参数平均。同时，论文在异步 SGD 损失函数上进行了解析，推导出了收敛速度的最优复杂度以及参与集群数量的线性加速和时滞参数的界.

Jan, 2024

分布式同步 SGD 的再探讨

本文研究了分布式训练深度学习模型时采用同步优化的可行性，发现同步优化虽然会浪费一些等待时间，但采用备用工作者的方式可以避免异步噪声并加速收敛，同时能够在保证准确性的前提下提高测试准确率。

Apr, 2016

异步分散并行随机梯度下降

本文提出了一种异步的分布式随机梯度下降算法（AD-PSGD）来解决异构环境下常用的同步算法（如 AllReduce-SGD）和参数服务器 suffer from 的问题，并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。

Oct, 2017

Pipe-SGD: 分布式深度神经网络训练的去中心化管道式 SGD 框架

本文提出一种基于 AllReduce 的分布式深度学习训练方法，并通过在四节点 GPU 集群测试，证明具有两个宽度的流水线架构可以将同步和异步训练的优点相结合，可将训练时间提高多达 5.4 倍。

Nov, 2018

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

异步分布式半随机梯度优化

本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法，采用变量规约技术，可使用常量的学习率，并保证线性收敛到最优解，在 Google 云计算平台上的实验表明，该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。

Aug, 2015

规模鲁棒的及时异步分散式学习

分布式异步学习系统通过模型更新和模型混合过程实现用户模型在有限时间内的收敛，并证明了当网络规模很大时，具有对数规模的用户混合能够保证用户模型的收敛，而有界的陈旧度只能通过至少与用户数量成线性关系的分布式机会方案来保证。

Apr, 2024

动态小批量随机梯度下降算法用于弹性分布式训练：在资源极限中的学习

通过动态调度不同的分布式深度学习任务，以最大化资源利用和减少成本，得到我们的 Elastic Distributed Training. 我们提出了一种名为 Dynamic SGD 的方法，可以通过平滑调整学习率来缓解噪声动量估计的影响，在图像分类，目标检测和语义分割等实验中取得了稳定的性能。

Apr, 2019

去中心化深度学习的本地异步随机梯度下降

本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步，实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。

Mar, 2022