分布式同步 SGD 的再探讨

Apr, 2016

Revisiting Distributed Synchronous SGD

Jianmin Chen, Xinghao Pan, Rajat Monga, Samy Bengio, Rafal Jozefowicz

TL;DR本文研究了分布式训练深度学习模型时采用同步优化的可行性，发现同步优化虽然会浪费一些等待时间，但采用备用工作者的方式可以避免异步噪声并加速收敛，同时能够在保证准确性的前提下提高测试准确率。

Abstract

distributed training of deep learning models on large-scale training data is typically conducted with asynchronous stochastic optimization to maximize the rate of updates, at the cost of additional noise introduc

distributed training deep learning synchronous optimization asynchronous optimization test accuracies

发现论文，激发创造

分布式深度学习的扩展方法

该研究比较了同步和异步随机梯度下降的收敛性，针对 ImageNet 分类问题的训练，在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛，而同步 SGD 在 100 个节点以下能更好地扩展。

Nov, 2016

慢而稳定的梯度也能取得胜利

本研究分析同步和异步分布式随机梯度下降算法的误差和训练时间之间的权衡，考虑到随机拖延延迟，提出了逐渐变化同步性的方法，并在 CIFAR10 数据集上表现良好。

Mar, 2020

异步分布式半随机梯度优化

本文提出了一种基于异步随机梯度下降的快速分布式机器学习算法，采用变量规约技术，可使用常量的学习率，并保证线性收敛到最优解，在 Google 云计算平台上的实验表明，该算法在墙时钟时间和解的质量方面优于最先进的分布式异步算法。

Aug, 2015

并行随机梯度下降的混合方法

我们提出了一种介于同步和异步方法之间的混合数据并行性方法，使用这两种方法训练神经网络，通过适当选择阈值函数来逐渐从异步转为同步的参数聚合，我们证明在一定时间范围内，我们的混合方法优于异步和同步方法。

Jun, 2024

Anytime 随机梯度下降：聆听所有工作者的时刻

本文提出了一种用于并行同步随机梯度下降 (SGD) 的方法，通过固定工作节点的计算时间并组合所有节点的不同贡献，优化并提高了计算效率，有效地解决了严重拖慢收敛速度的 straggler 问题。

Oct, 2018

分布式深度学习的同步异步随机梯度下降算法

本文提出了一种改进的异步 SGD 算法，通过梯度陈旧程度对学习速率进行调节，以提高其稳定性和收敛速度，在 CIFAR10 和 Imagenet 数据集上进行了实验验证，并证明了该算法的优越性。

Nov, 2015

去中心化深度学习的本地异步随机梯度下降

本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步，实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。

Mar, 2022

弹性平均随机梯度下降的深度学习

在通信约束之下的并行计算环境下研究深度学习的随机优化问题，提出了一种新的基于弹性力的算法，可以使本地变量更加波动以允许更多的探索，同时减少了本地工作者与主节点之间的通信，从而加快了训练速度和提高了效率

Dec, 2014

自适应 SGD 分布式随机优化

本文提出了一种高效的分布式随机优化方法，通过结合适应性与方差约减技术，从而实现任何串行在线学习算法的并行计算，能够在不需要光滑参数的先验知识的情况下实现最优收敛速率，同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。

Feb, 2018

分布式延迟随机优化

该文主要研究基于梯度的优化算法中的延迟随机梯度信息的收敛性，以及如何应用于分布式优化算法中克服通信瓶颈和同步要求的问题，结果表明在平滑随机问题中，延迟是渐近可以忽略的，且能达到最优收敛效果。

Apr, 2011