使用避免等待的群组平均法在并行随机优化中突破（全球）界限

Apr, 2020

使用避免等待的群组平均法在并行随机优化中突破（全球）界限

Breaking (Global) Barriers in Parallel Stochastic Optimization with Wait-Avoiding Group Averaging

Shigang Li, Tal Ben-Nun, Dan Alistarh, Salvatore Di Girolamo, Nikoli Dryden...

TL;DR本文提出了Wait-Avoiding Group Model Averaging (WAGMA) SGD算法，采用子集权重交换的方式减少全局通信，优化分布式深度学习中的性能问题，相较于其他分布式SGD算法具有更快的训练速度和更高的得分。

Abstract

deep learning at scale is dominated by communication time. Distributing samples across nodes usually yields the best performance, but poses scaling challenges due to global information dissemination and load imbalance across uneven sample lengths. State-of-the-art decentralized optimiz

发现论文，激发创造

并行重启 SGD：更快收敛，更少通信——揭秘深度学习中模型平均的原理

本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销，并阐述该方法与并行小批量随机梯度下降（SGD）在训练时间上的相似性。

Jul, 2018

Anytime随机梯度下降：聆听所有工作者的时刻

本文提出了一种用于并行同步随机梯度下降 (SGD) 的方法，通过固定工作节点的计算时间并组合所有节点的不同贡献，优化并提高了计算效率，有效地解决了严重拖慢收敛速度的 straggler 问题。

Oct, 2018

分布式稀疏全局约简分层SGD算法

为了减少大规模机器学习应用中分布式平台训练过程中的通信成本，我们提出了一种分布式层次平均随机梯度下降（Hier-AVG）算法，该算法采用局部平均，通过引入不频繁的全局平均来实现。实验结果表明，与其他算法相比，采用Hier-AVG可以实现更快的训练结果，而仍能达到更好的测试精度。

Mar, 2019

MATCHA: 基于匹配分解采样的分布式随机梯度下降加速算法

本文研究了分布式训练中通常遇到的误差-运行时权衡问题，提出了MATCHA算法，该算法能够在任意网络拓扑结构下实现误差-运行时权衡的双赢，并且通过将拓扑结构分解为匹配来实现节点之间的并行交流。通过实验验证，MATCHA算法在达到相同的训练损失时比基本的分布式随机梯度下降算法少花费高达5倍的时间。

May, 2019

误差反馈框架：延迟梯度和压缩通信下提高SGD速率

本文研究了在平滑拟凸和非凸函数上的随机梯度下降法（SGD）进行延迟更新，并得出了简洁的非渐近收敛速度。我们证明了在所有情况下收敛速度的由两个项组成：（i）一个随机项，不受延迟的影响，和（ii）一个更高阶的确定性项，只是通过延迟线性减缓。因此，在存在噪声的情况下，延迟的影响在几次迭代后变得微不足道，算法以与标准 SGD 相同的最优速度收敛。我们进一步展示了在使用层压梯度（compressed gradients）进行错误补偿时以及在多个节点上做本地 SGD 之后通信的情况下，与现有最佳算法相比，我们得到了更好的结果。这些结果表明 SGD 对于压缩和/或延迟的随机梯度更新是具有鲁棒性的。这对于分布式并行实现特别重要，因为异步和通信高效方法是实现多设备优化的线性加速的关键。

Sep, 2019

异步分散学习算法中的量化和本地更新

研究异步传播模型下去中心化优化算法的收敛性，提出一种称为 SwarmSGD 的变量 SGD 算法，使用多维负载平衡过程连接进行分析，并在超级计算环境中表现出比以前的去中心化算法和大批次 SGD 更好的性能。

Oct, 2019

周期平均的本地随机梯度下降：更紧密的分析和自适应同步

本文研究了一种名为local distributed SGD的分布式优化算法，其中数据在计算节点之间进行划分，计算节点进行本地更新，定期交换模型以进行平均化，并对其进行收敛分析，结果表明它可以大大降低通信成本并且适用性比当前理论推测的更为广泛，同时提出了一种自适应同步方案，验证理论和方案的实验结果在AWS EC2云和内部GPU集群上运行良好。

Oct, 2019

具有动态拓扑和本地更新的去中心化SGD的统一理论

这篇论文介绍了一种统一的收敛性分析方法，涵盖了许多分散式随机梯度下降方法，具有计算成本低、数据本地性和沟通效率等优点，并包括本地随机梯度下降更新和自适应网络拓扑上的同步和成对传递更新，我们推导了光滑（凸和非凸）问题的通用收敛率，并在不同的数据分布和 iid 数据设置下进行了插值。

Mar, 2020

去中心化SGD和平均方向SAM在渐近情况下等价

本文挑战了常规信念，提出了一种完全新的角度来理解分散学习，证明了分散随机梯度下降隐含地最小化了一种平均方向锐度感知最小化算法的损失函数，在常规非凸非 $/beta/$ -平滑设置下的这种惊人的渐近等价关系揭示了一种本质上的正则化-优化权衡和分散的三个优点。

Jun, 2023

ABS-SGD：一种适用于异构GPU集群的带有自适应批大小的延迟同步随机梯度下降算法

我们提出了一种在异构GPU集群中具有自适应批大小的延迟同步随机梯度下降（ABS-SGD）算法，该算法通过全局同步来积累延迟的梯度，并使用积累的延迟梯度来更新参数，实现了计算资源的充分利用，并且在异构集群中具有收敛性。

Aug, 2023