本地SGD收敛快且通信量小
本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销,并阐述该方法与并行小批量随机梯度下降(SGD)在训练时间上的相似性。
Jul, 2018
本文提出了一种后局部随机梯度下降(SGD)方法,并通过标准基准测试表明,相比大批量训练,该方法显著提高了模型的泛化性能,同时保持相同的效率和可扩展性。此外,本文对一系列局部 SGD 变体的通信效率与性能权衡进行了广泛的研究。
Aug, 2018
本文提出了一种新的Local SGD方法的分析方式,去掉了不必要的假设并详细阐述了同一和异构两种数据环境下的区别,对于这两种情况,我们提高了现有理论并提供了最优步长和最优本地迭代次数。我们的界限基于一种特定于不同数据的Local SGD方法的新的方差概念。当$H=1$时,我们恢复已知的语句以保证我们结果的紧密性。实证证据进一步验证了数据异构性对Local SGD性能的严重影响。
Sep, 2019
本篇论文提出了一种新的SGD变体算法,降低了通信开销及提高自适应学习率,经实验证明,该算法显著降低了通信开销,进而缩短了1B字数据集的训练时间30%。
Nov, 2019
本论文提出了一种Variance Reduced Local SGD算法,通过消除工作人员之间的梯度方差依赖性,实现了更低的通信复杂性,以实现线性迭代加速,并在三个机器学习任务上得到了卓越的性能表现。
Dec, 2019
本文探讨了同时跨越多个工作者并进行随机梯度下降(SGD)来加速SGD的方法。通过对Local SGD的新分析,本文证明当机器在通信变现之间进行多个本地步骤时,Local SGD方法可以实现错误按照$1/(nT)$的比例缩放,只需进行固定数量的通信,而无需不断增加通信次数。
Jun, 2020
本文提出了一种称为STL-SGD算法的分布式机器学习算法,通过逐渐增加通信周期来降低通信复杂度并加速收敛速度,证明其具有与mini-batch SGD相同的收敛速度和线性加速,且在强凸或满足Polyak-Lijasiewicz条件的情况下具有较大的优势。
Jun, 2020
本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销,可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。
Feb, 2021
该论文通过理论分析和实验证明,本地统计梯度下降(L-SGD)可以更有效地探索损失函数的二阶信息,从而比随机梯度下降(SGD)更快地收敛。
May, 2023