本研究探讨了两种异步并行随机梯度下降的实现方式,并证明了它们的收敛率均为 O (1 / 根号 K),且在工作者数受到限制的情况下可实现线性加速。
Jun, 2015
本文提出了一种名为 local-SGD 的算法,通过逐步同步而非每一步都进行通信提高了通信效率,同时在大步长情况下提供了自适应下限比较。
Apr, 2019
本文研究了分布式优化方法在深度学习中的应用,发现分布式动量随机梯度下降在性能、通讯效率方面存在一定优势,并证明其拥有与分布式随机梯度下降相同的线性加速性质。
May, 2019
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
May, 2018
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过 Spark 分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
本文探讨了同时跨越多个工作者并进行随机梯度下降(SGD)来加速 SGD 的方法。通过对 Local SGD 的新分析,本文证明当机器在通信变现之间进行多个本地步骤时,Local SGD 方法可以实现错误按照 $1/(nT)$ 的比例缩放,只需进行固定数量的通信,而无需不断增加通信次数。
Jun, 2020
本文提出了一种称为 STL-SGD 算法的分布式机器学习算法,通过逐渐增加通信周期来降低通信复杂度并加速收敛速度,证明其具有与 mini-batch SGD 相同的收敛速度和线性加速,且在强凸或满足 Polyak-Lijasiewicz 条件的情况下具有较大的优势。
本文提出了 Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD) 算法,实现了计算和通信的并行处理,有效减少了通信开销,较传统分布式 SGD 算法具有更高的时间加速度,在 16 个 GPU 上的 ResNet18 和 VGG16 深度神经网络训练表现出 2-3 倍的速度提升。
Jun, 2019
本文研究了一种名为 local distributed SGD 的分布式优化算法,其中数据在计算节点之间进行划分,计算节点进行本地更新,定期交换模型以进行平均化,并对其进行收敛分析,结果表明它可以大大降低通信成本并且适用性比当前理论推测的更为广泛,同时提出了一种自适应同步方案,验证理论和方案的实验结果在 AWS EC2 云和内部 GPU 集群上运行良好。
Oct, 2019
现代深度神经网络通常需要分布式训练以应对其巨大的规模,但当工作节点数量增加时,通过每次迭代梯度同步的数据并行小批量随机梯度方法中的通信开销成为主要瓶颈。本文引入了适应性批量大小策略,用于局部梯度方法,通过自适应地增加批量大小来减小小批量梯度的方差,提供了在均匀数据条件下的收敛性保证,并通过图像分类实验支持我们的说法,证明了我们的策略在训练和泛化中的有效性。
Jun, 2024