本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
May, 2018
本文研究了一种名为 local distributed SGD 的分布式优化算法,其中数据在计算节点之间进行划分,计算节点进行本地更新,定期交换模型以进行平均化,并对其进行收敛分析,结果表明它可以大大降低通信成本并且适用性比当前理论推测的更为广泛,同时提出了一种自适应同步方案,验证理论和方案的实验结果在 AWS EC2 云和内部 GPU 集群上运行良好。
Oct, 2019
本文探讨了同时跨越多个工作者并进行随机梯度下降(SGD)来加速 SGD 的方法。通过对 Local SGD 的新分析,本文证明当机器在通信变现之间进行多个本地步骤时,Local SGD 方法可以实现错误按照 $1/(nT)$ 的比例缩放,只需进行固定数量的通信,而无需不断增加通信次数。
Jun, 2020
本文介绍 AdaComm,一种自适应通信策略,可以更快地训练深度神经网络,使大规模机器学习训练更 robust 且具有更快的收敛速度。
Oct, 2018
现代深度神经网络通常需要分布式训练以应对其巨大的规模,但当工作节点数量增加时,通过每次迭代梯度同步的数据并行小批量随机梯度方法中的通信开销成为主要瓶颈。本文引入了适应性批量大小策略,用于局部梯度方法,通过自适应地增加批量大小来减小小批量梯度的方差,提供了在均匀数据条件下的收敛性保证,并通过图像分类实验支持我们的说法,证明了我们的策略在训练和泛化中的有效性。
Jun, 2024
本文提出了一种称为 STL-SGD 算法的分布式机器学习算法,通过逐渐增加通信周期来降低通信复杂度并加速收敛速度,证明其具有与 mini-batch SGD 相同的收敛速度和线性加速,且在强凸或满足 Polyak-Lijasiewicz 条件的情况下具有较大的优势。
本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销,可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。
Feb, 2021
本文提出了一个统一的框架 —— 合作 SGD (Cooperative SGD),它包含了现有的高效通信 SGD 算法,如周期平均、弹性平均和分散 SGD。通过分析 Cooperative SGD,我们为现有算法提供了新的收敛保证。此外,该框架使我们能够设计新的高效通信 SGD 算法,以在降低通信开销和实现低误差下的快速误差收敛之间取得最佳平衡。
Aug, 2018
通过学习优化器的方法,本研究证明了学习优化器在保持通信高效性的同时,能够明显优于本地 SGD 及其衍生变体,甚至在未见过的更大规模数据集、架构(如 ImageNet 和 ViTs)以及语言模型等方面具有推广性,从而展示了学习优化器改进通信高效分布式学习的潜力。
Dec, 2023
研究异步传播模型下去中心化优化算法的收敛性,提出一种称为 SwarmSGD 的变量 SGD 算法,使用多维负载平衡过程连接进行分析,并在超级计算环境中表现出比以前的去中心化算法和大批次 SGD 更好的性能。