基于草图的高效分布式 SGD 算法
本文介绍了一种名为 FetchSGD 的算法,该算法通过使用 Count Sketch 压缩模型更新,并利用 Sketch 合并性从众多工作者中组合模型更新来克服联合学习中的通信瓶颈和因稀疏客户参与而导致的收敛问题。我们证明了 FetchSGD 具有良好的收敛性能,并通过训练两个残差网络和一个 Transformer 模型来证明其实证效果。
Jul, 2020
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文提出了 Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD) 算法,实现了计算和通信的并行处理,有效减少了通信开销,较传统分布式 SGD 算法具有更高的时间加速度,在 16 个 GPU 上的 ResNet18 和 VGG16 深度神经网络训练表现出 2-3 倍的速度提升。
Jun, 2019
提出了一种名为 Quantized SGD 的压缩梯度下降的算法,使用该算法可以在降低通信代价的同时保证收敛,且在图像分类和自动语音识别等多个实验中表现优异。
Oct, 2016
本论文证明了局部随机梯度下降算法在凸问题上能够以与小批量随机梯度下降算法相同的速率收敛,并且与工人数量和小批量大小呈线性加速关系,其中通信轮数可以减少长达 T ^ {1/2} 个因子。
May, 2018
本文提出了一种新的分布式优化方法 LAGS-SGD,它结合了 S-SGD 与一种新的 LAGS 方案,通过采用分层自适应梯度稀疏来减少通信负担,实现了通信和计算之间的重叠,同时保证了收敛性能。在 16-GPU 群集上的实验结果表明,LAGS-SGD 在不失精度的情况下优于原始的 S-SGD 和现有的稀疏 S-SGD。
Nov, 2019
提出了一种基于 Nesterov 的动量的分布式压缩的 SGD 方法,通过两种方式压缩梯度并将梯度分块,每个梯度块都以 1 位格式进行压缩和传输,并实现了近 32 倍的通信降低,实验表明该方法与精度相同的动量 SGD 收敛速度相同,并在分布式 ResNet 训练中达到与全精度梯度动量 SGD 相同的测试精度,而时间缩短了 46%。
May, 2019
本文探讨了同时跨越多个工作者并进行随机梯度下降(SGD)来加速 SGD 的方法。通过对 Local SGD 的新分析,本文证明当机器在通信变现之间进行多个本地步骤时,Local SGD 方法可以实现错误按照 $1/(nT)$ 的比例缩放,只需进行固定数量的通信,而无需不断增加通信次数。
Jun, 2020