关于异构数据分布式优化的通信压缩
研究表明,用于分布式学习的偏置压缩算子可以显著提高通信效率并达到线性收敛率,其性能优于其无偏压缩器。它们可用于随机梯度下降和分布式随机梯度下降,并且存在许多具有良好理论保证和实际性能的新偏置压缩器可供选择。
Feb, 2020
提出了一种名为 Quantized SGD 的压缩梯度下降的算法,使用该算法可以在降低通信代价的同时保证收敛,且在图像分类和自动语音识别等多个实验中表现优异。
Oct, 2016
提出了一种基于 Nesterov 的动量的分布式压缩的 SGD 方法,通过两种方式压缩梯度并将梯度分块,每个梯度块都以 1 位格式进行压缩和传输,并实现了近 32 倍的通信降低,实验表明该方法与精度相同的动量 SGD 收敛速度相同,并在分布式 ResNet 训练中达到与全精度梯度动量 SGD 相同的测试精度,而时间缩短了 46%。
May, 2019
本文研究在分布式学习场景下,提出了一种具有容错性的压缩算法,通过对工作节点和参数服务器上的数据进行错误补偿以提高其效率和收敛率,并进行了理论和实证研究。
May, 2019
本文提出了一种统一的分析分布式 SGD 各种变体的方法,涵盖了不同的量化 SGD、误差补偿 SGD 和延迟更新 SGD 变体,并通过一个定理推导了其所有方法的复杂度结果。在此基础上,我们开发了 16 种新的方法,其中包括第一种基于误差反馈和梯度差分量化的 EC-SGD-DIANA 方法和第一种具有误差反馈和方差缩减的分布式随机方法 EC-LSVRG-DIANA。
Oct, 2020
我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降(SGD)的新算法。我们的梯度压缩技术名为压平一位随机梯度下降(FO-SGD),它依赖于两个简单的算法思想:(i)利用抖动技术的一位量化过程,和(ii)在量化之前使用随机快速 Walsh-Hadamard 变换来压平随机梯度。因此,在该方案中,真实梯度的近似是有偏的,但它避免了常见的算法问题,如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上,我们证明了在温和条件下类似于 SGD 的收敛性保证。该压缩技术可在工作机 - 服务器通信的双向上使用,因此支持具有完整通信压缩的分布式优化。
May, 2024
本文提出了误差补偿量化随机梯度下降算法以优化数据分布式学习中的性能瓶颈,并对其收敛性行为进行了理论分析,同时通过实验证明了该算法在梯度压缩方面具有较大优势。
Jun, 2018
本文提出了一种名为 DIANA 的新型分布式学习方法,通过压缩梯度差异解决了模型更新通信瓶颈的问题,并且在强凸和非凸设置中进行了理论分析,结果表明 DIANA 的收敛速度优于现有方法。
Jan, 2019
本研究旨在提出一种具有依赖误差补偿机制的 Qsparse-local-SGD 算法,该算法采用聚合式稀疏化和量化,以及局部计算方法,并且与其他算法相比在解决大规模学习模型中的通信问题上具备潜在的优越性。
Jun, 2019