分布式非凸优化中通信高效动量随机梯度下降的线性加速分析
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达T ^ {1/2}个因子。
May, 2018
本文提出了一个统一的框架——合作 SGD (Cooperative SGD),它包含了现有的高效通信 SGD 算法,如周期平均、弹性平均和分散 SGD。通过分析 Cooperative SGD,我们为现有算法提供了新的收敛保证。此外,该框架使我们能够设计新的高效通信 SGD 算法,以在降低通信开销和实现低误差下的快速误差收敛之间取得最佳平衡。
Aug, 2018
提出了一种基于Nesterov的动量的分布式压缩的SGD方法,通过两种方式压缩梯度并将梯度分块,每个梯度块都以1位格式进行压缩和传输,并实现了近32倍的通信降低,实验表明该方法与精度相同的动量SGD收敛速度相同,并在分布式ResNet训练中达到与全精度梯度动量SGD相同的测试精度,而时间缩短了46%。
May, 2019
提出了一种新的名为全局动量压缩的方法,其利用稀疏通信和记忆梯度与动量随机梯度下降相结合,能够在分布式机器学习任务中显著减少通信成本,同时证明了该方法在凸问题和非凸问题中的收敛速率。
May, 2019
本文提出了Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD)算法, 实现了计算和通信的并行处理, 有效减少了通信开销, 较传统分布式SGD算法具有更高的时间加速度, 在16个GPU上的ResNet18和VGG16深度神经网络训练表现出2-3倍的速度提升。
Jun, 2019
本篇论文提出了一种新的SGD变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了1B字数据集的训练时间30%。
Nov, 2019
本论文提出了一种Variance Reduced Local SGD算法,通过消除工作人员之间的梯度方差依赖性,实现了更低的通信复杂性,以实现线性迭代加速,并在三个机器学习任务上得到了卓越的性能表现。
Dec, 2019
在分布式机器学习中,有效地进行具有不同数据分布的多个代理的训练面临着重大挑战。本研究解决了分布式优化问题中的集中式和分散式设置,并提出了一种基于原始对偶方法的新方法,即(加速)梯度上升的多随机梯度下降(GA-MSGD),它自然地融合了本地更新,实现了线性收敛,并且几乎达到了最优的通信复杂性。
Jul, 2024