分布式深度学习的同步异步随机梯度下降算法

IJCAINov, 2015

分布式深度学习的同步异步随机梯度下降算法

Staleness-aware Async-SGD for Distributed Deep Learning

Wei Zhang, Suyog Gupta, Xiangru Lian, Ji Liu

TL;DR本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Abstract

deep neural networks have been shown to achieve state-of-the-art performance in several machine learning tasks. stochastic gradient descent (SGD) is the preferred optimization algorithm for training these network

deep neural networks stochastic gradient descent asynchronous sgd distributed computing learning rate

发现论文，激发创造

异步分布式半随机梯度优化

本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法，采用变量规约技术，可使用常量的学习率，并保证线性收敛到最优解，在 Google 云计算平台上的实验表明，该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。

Aug, 2015

慢而稳定的梯度也能取得胜利

本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡，考虑到随机拖延延迟，提出了逐渐变化同步性的方法，并在 CIFAR10 数据集上表现良好。

Mar, 2020

带有延迟的分布式随机梯度下降：基于随机延迟微分方程的框架

基于随机时滞微分方程（SDDE）和概率到达梯度泊松近似，提出了统一框架来分析和优化异步分布式随机梯度下降（ASGD）的收敛性，揭示了 ASGD 的阻尼系数、延迟统计特性和收敛条件，以及调度策略的优化。同时表明增加激活的工作人员数量并不一定加速分布式随机梯度下降，而较大程度的时滞将导致其发散。通过数值实验验证了 SDDE 框架在复杂学习任务中具有的潜力。

Jun, 2024

具有延迟补偿的异步随机梯度下降

提出了一种新的异步随机梯度下降算法，通过利用梯度函数的泰勒展开和损失函数的快速近似海森矩阵，实现了延迟补偿，从而使 ASGD 的优化行为更接近于顺序 SGD。在 CIFAR-10 和 ImageNet 数据集上进行了评估，实验结果表明，DC-ASGD 优于同步 SGD 和异步 SGD，几乎接近于顺序 SGD 的性能。

Sep, 2016

异步分散并行随机梯度下降

本文提出了一种异步的分布式随机梯度下降算法（AD-PSGD）来解决异构环境下常用的同步算法（如 AllReduce-SGD）和参数服务器 suffer from 的问题，并且在理论分析和经验结果上证明了 AD-PSGD 在异构环境下具有良好的收敛速度和通信效率优势。

Oct, 2017

分散式 ASGD 的收敛分析

我们提供了分布式和异步随机梯度下降（DASGD）的收敛速度分析，并证明了它对于一系列条件是有效的。

Sep, 2023

梯度滞后的间隔感知缓解

该研究提出了一种名为 Gap-Aware（GA）的新的异步 - 分布式方法，通过线性惩罚梯度滞后度量 Gap 并在大量工作者的情况下表现良好，即使在异步环境中应用 GA，动量仍然有益处。

Sep, 2019

异步共享内存中随机梯度下降算法的收敛性

本文研究并发训练中 Stochastic Gradient Descent 算法的收敛性，提出了在异步共享内存模型下的新收敛界限，同时指出了最大延迟和算法收敛速度之间的基本权衡关系。

Mar, 2018

去中心化深度学习的本地异步随机梯度下降

本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步，实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。

Mar, 2022

异步并行随机梯度下降 - 可扩展分布式机器学习算法的数值核心

本文提出了一种利用异步单向通信范例的新型并行更新算法 ASGD，相较于现有方法，ASGD 具有更快（或至少相当）的收敛速度，接近于线性的缩放以及稳定的准确性，在大规模机器学习问题中具有应用前景。

May, 2015