误差补偿量化 SGD 及其在大规模分布式优化中的应用
提出了一种名为Quantized SGD的压缩梯度下降的算法,使用该算法可以在降低通信代价的同时保证收敛,且在图像分类和自动语音识别等多个实验中表现优异。
Oct, 2016
本文提出了一种高效的分布式随机优化方法,通过结合适应性与方差约减技术,从而实现任何串行在线学习算法的并行计算,能够在不需要光滑参数的先验知识的情况下实现最优收敛速率,同时通过Spark分布式框架的实现能够对大规模逻辑回归问题进行高效处理。
Feb, 2018
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文研究在分布式学习场景下,提出了一种具有容错性的压缩算法,通过对工作节点和参数服务器上的数据进行错误补偿以提高其效率和收敛率,并进行了理论和实证研究。
May, 2019
本文研究了在平滑拟凸和非凸函数上的随机梯度下降法(SGD)进行延迟更新,并得出了简洁的非渐近收敛速度。我们证明了在所有情况下收敛速度的由两个项组成:(i)一个随机项,不受延迟的影响,和(ii)一个更高阶的确定性项,只是通过延迟线性减缓。因此,在存在噪声的情况下,延迟的影响在几次迭代后变得微不足道,算法以与标准 SGD 相同的最优速度收敛。我们进一步展示了在使用层压梯度(compressed gradients)进行错误补偿时以及在多个节点上做本地 SGD 之后通信的情况下,与现有最佳算法相比,我们得到了更好的结果。这些结果表明 SGD 对于压缩和/或延迟的随机梯度更新是具有鲁棒性的。这对于分布式并行实现特别重要,因为异步和通信高效方法是实现多设备优化的线性加速的关键。
Sep, 2019
本文研究比较了两种标准的数据压缩方法:分布式量化SGD和分布式SGD反馈错误的压缩机在非独立同分布数据集的训练效果,结果表明,后者比前者更适合非独立同分布数据,但两种方法都会因为数据分布的不均匀而变慢。文中还提出一种对于强凸问题有效的方法和适用于线性压缩器的更通用的方法。
Sep, 2020
本文提出了一种统一的分析分布式SGD各种变体的方法,涵盖了不同的量化SGD、误差补偿SGD和延迟更新SGD变体,并通过一个定理推导了其所有方法的复杂度结果。在此基础上,我们开发了16种新的方法,其中包括第一种基于误差反馈和梯度差分量化的EC-SGD-DIANA方法和第一种具有误差反馈和方差缩减的分布式随机方法EC-LSVRG-DIANA。
Oct, 2020
为了解决分布式学习中的通信瓶颈挑战,本研究引入了一种新的两阶段量化策略,旨在增强分布式随机梯度下降(SGD)的通信效率。通过截断来减轻长尾噪声的影响,随后根据梯度的统计特征进行非均匀量化。我们为量化的分布式SGD提供了全面的收敛性分析,为其性能提供了理论保证。此外,通过最小化收敛误差,我们推导出了在给定通信约束下的截断阈值和非均匀量化水平的最优闭式解。理论洞察力和广泛的实验评估表明,我们的算法优于现有的量化方案,在通信效率和收敛性能之间达到了更优的平衡。
Feb, 2024
我们提出了一种专门针对重尾梯度进行压缩的新方案,该方案将梯度截断和量化有效地结合在一起,并在通信受限的分布式随机梯度下降框架中进行了巧妙实现,我们通过理论分析和与其他基准的比较实验证明了该方法在管理分布式学习环境中的重尾梯度方面的有效性。
Feb, 2024
我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降(SGD)的新算法。我们的梯度压缩技术名为压平一位随机梯度下降(FO-SGD),它依赖于两个简单的算法思想:(i)利用抖动技术的一位量化过程,和(ii)在量化之前使用随机快速Walsh-Hadamard变换来压平随机梯度。因此,在该方案中,真实梯度的近似是有偏的,但它避免了常见的算法问题,如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上,我们证明了在温和条件下类似于SGD的收敛性保证。该压缩技术可在工作机-服务器通信的双向上使用,因此支持具有完整通信压缩的分布式优化。
May, 2024