这篇论文介绍了一种统一的收敛性分析方法,涵盖了许多分散式随机梯度下降方法,具有计算成本低、数据本地性和沟通效率等优点,并包括本地随机梯度下降更新和自适应网络拓扑上的同步和成对传递更新,我们推导了光滑(凸和非凸)问题的通用收敛率,并在不同的数据分布和 iid 数据设置下进行了插值。
Mar, 2020
研究异步传播模型下去中心化优化算法的收敛性,提出一种称为 SwarmSGD 的变量 SGD 算法,使用多维负载平衡过程连接进行分析,并在超级计算环境中表现出比以前的去中心化算法和大批次 SGD 更好的性能。
Oct, 2019
本文提出了一种名为 local SGDA 的算法来缓解分布式学习中的通信开销,可在广泛的分布式 minmax 优化问题下实现可证明的收敛性和更少的通信次数。
Feb, 2021
在本文中,我们研究了两种基础的分散式优化方法:分散式梯度跟踪(DGT)和分散式梯度下降(DGD),并考虑了多次本地更新。我们证明了增加本地更新步骤可以降低通信复杂性,并揭示了通信与计算之间的权衡关系。在数据异质性较低且网络连接良好时,增加本地更新可以有效降低通信成本。我们还证明了在超参数化的情况下,即使没有梯度修正,DGD 中使用本地更新也可以降低通信复杂性。数值实验验证了我们的理论结果。
Mar, 2024
通过学习优化器的方法,本研究证明了学习优化器在保持通信高效性的同时,能够明显优于本地 SGD 及其衍生变体,甚至在未见过的更大规模数据集、架构(如 ImageNet 和 ViTs)以及语言模型等方面具有推广性,从而展示了学习优化器改进通信高效分布式学习的潜力。
Dec, 2023
提出一种采用分布式训练(DFL)的通用分散式最随机梯度下降(SGD)框架,它可以解决在多个节点中进行通信和本地更新的平衡,具有压缩通信和强收敛保证的特点。
Jul, 2021
本文主要介绍分布式深度神经网络训练算法的通信拓扑设计选择及异步去中心化算法如何通过 LASGD 实现模型同步,实验证明 LASGD 相较于 SGD 及业界领先的基于八卦协议的算法加速了大规模图像分类数据集 ImageNet 的训练速度。
Mar, 2022
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
May, 2018
本文提出了一种称为 STL-SGD 算法的分布式机器学习算法,通过逐渐增加通信周期来降低通信复杂度并加速收敛速度,证明其具有与 mini-batch SGD 相同的收敛速度和线性加速,且在强凸或满足 Polyak-Lijasiewicz 条件的情况下具有较大的优势。
Jun, 2020
本文提出了一种名为 local-SGD 的算法,通过逐步同步而非每一步都进行通信提高了通信效率,同时在大步长情况下提供了自适应下限比较。
Apr, 2019