并行 SGD 动态批大小在随机非凸优化中的计算与通信复杂度

May, 2019

并行 SGD 动态批大小在随机非凸优化中的计算与通信复杂度

On the Computation and Communication Complexity of Parallel SGD with Dynamic Batch Sizes for Stochastic Non-Convex Optimization

HTML

PDF

Hao Yu, Rong Jin

TL;DR研究使用动态批量大小的分布式优化在随机非凸优化中实现线性加速和收敛率优化。

Abstract

For sgd based distributed stochastic optimization, computation complexity, measured by the convergence rate in terms of the number of stochastic gradient calls, and communication complexity, measured by the numbe

发现论文，激发创造

小批量Prox分布式随机优化的高效内存和通信

提出一种分布式随机优化的方法，该方法具有统计上的最优性并且可以实现近线性的加速（达到对数级因子）。该方法允许通信-内存权衡，具有对数级通信但线性内存或多项式通信和相应的多项式内存降低。通过使用小批量相对迭代（小批量被动-侵略性更新），在每次迭代时解决小批量的子问题实现了这种通信-内存权衡。对此类小批量相对逼近程序的新型分析可以实现统计上的最优速率，而不管小批量的大小和平滑度，因此在之前的工作中得到了显着的改进。

Feb, 2017

自适应SGD分布式随机优化

本文提出了一种高效的分布式随机优化方法，通过结合适应性与方差约减技术，从而实现任何串行在线学习算法的并行计算，能够在不需要光滑参数的先验知识的情况下实现最优收敛速率，同时通过Spark分布式框架的实现能够对大规模逻辑回归问题进行高效处理。

Feb, 2018

本地SGD收敛快且通信量小

本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛，并且与工人数量和小批量大小呈线性加速关系，其中通信轮数可以减少长达T ^ {1/2}个因子。

May, 2018

并行重启 SGD：更快收敛，更少通信——揭秘深度学习中模型平均的原理

本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销，并阐述该方法与并行小批量随机梯度下降（SGD）在训练时间上的相似性。

Jul, 2018

相同和异构数据的本地随机梯度下降的更紧密理论

本文提出了一种新的Local SGD方法的分析方式，去掉了不必要的假设并详细阐述了同一和异构两种数据环境下的区别，对于这两种情况，我们提高了现有理论并提供了最优步长和最优本地迭代次数。我们的界限基于一种特定于不同数据的Local SGD方法的新的方差概念。当$H=1$时，我们恢复已知的语句以保证我们结果的紧密性。实证证据进一步验证了数据异构性对Local SGD性能的严重影响。

Sep, 2019

误差反馈框架：延迟梯度和压缩通信下提高SGD速率

本文研究了在平滑拟凸和非凸函数上的随机梯度下降法（SGD）进行延迟更新，并得出了简洁的非渐近收敛速度。我们证明了在所有情况下收敛速度的由两个项组成：（i）一个随机项，不受延迟的影响，和（ii）一个更高阶的确定性项，只是通过延迟线性减缓。因此，在存在噪声的情况下，延迟的影响在几次迭代后变得微不足道，算法以与标准 SGD 相同的最优速度收敛。我们进一步展示了在使用层压梯度（compressed gradients）进行错误补偿时以及在多个节点上做本地 SGD 之后通信的情况下，与现有最佳算法相比，我们得到了更好的结果。这些结果表明 SGD 对于压缩和/或延迟的随机梯度更新是具有鲁棒性的。这对于分布式并行实现特别重要，因为异步和通信高效方法是实现多设备优化的线性加速的关键。

Sep, 2019

并行重启SPIDER -- 与最优计算复杂度的通信高效分布式非凸优化

本文提出了一种基于SPIDER梯度估计器的分布式算法，可用于处理随机的平滑、非凸优化问题，该算法结合了最优化方差减少技术与并行 SGD 算法，优化了可以用于联邦学习的非相同分布的数据的模型，提出的算法具有最优迭代复杂度复杂度，并实现了与现有方法相同的线性加速。

Dec, 2019

局部 SGD 比小批量 SGD 更好吗？

本文研究了局部 SGD（也称为并行 SGD 和联邦平均），一个自然且常用的随机分布式优化方法。在凸设置中，我们证明了局部 SGD 严格优于小批量 SGD，并且加速局部 SGD 在凸二次目标上是最小极值最优的。同时，我们还提供了总体上至少有时优于小批量 SGD 的第一个保证，并展示了局部 SGD 存在一种性能下限，比小批量 SGD 保证更差。

Feb, 2020

STL-SGD：针对阶段通信周期的本地 SGD 加速

本文提出了一种称为STL-SGD算法的分布式机器学习算法，通过逐渐增加通信周期来降低通信复杂度并加速收敛速度，证明其具有与mini-batch SGD相同的收敛速度和线性加速，且在强凸或满足Polyak-Lijasiewicz条件的情况下具有较大的优势。

Jun, 2020

分布式随机凸优化的极小-极大复杂度及间歇通信

研究分布式随机凸优化的最小最大复杂度，在间歇通信设置下提出了一种新的下限和上限算法，以确定最佳算法。

Feb, 2021