线性收敛误差补偿 SGD
提出了一种名为Quantized SGD的压缩梯度下降的算法,使用该算法可以在降低通信代价的同时保证收敛,且在图像分类和自动语音识别等多个实验中表现优异。
Oct, 2016
本文提出了误差补偿量化随机梯度下降算法以优化数据分布式学习中的性能瓶颈,并对其收敛性行为进行了理论分析,同时通过实验证明了该算法在梯度压缩方面具有较大优势。
Jun, 2018
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文研究在分布式学习场景下,提出了一种具有容错性的压缩算法,通过对工作节点和参数服务器上的数据进行错误补偿以提高其效率和收敛率,并进行了理论和实证研究。
May, 2019
提出了一种基于Nesterov的动量的分布式压缩的SGD方法,通过两种方式压缩梯度并将梯度分块,每个梯度块都以1位格式进行压缩和传输,并实现了近32倍的通信降低,实验表明该方法与精度相同的动量SGD收敛速度相同,并在分布式ResNet训练中达到与全精度梯度动量SGD相同的测试精度,而时间缩短了46%。
May, 2019
本文提出了一种统一分析的变体的近端随机梯度下降法,包括了未进行方差缩减、重要性抽样、小批量抽样、量化、坐标子采样等方法,同时获得了近端随机梯度下降法和随机化坐标下降法、方差缩减和非方差缩减的统一理论,提出了五种新变体的近端随机梯度下降法,并通过数值实验证明了其性质。
May, 2019
本文研究了在平滑拟凸和非凸函数上的随机梯度下降法(SGD)进行延迟更新,并得出了简洁的非渐近收敛速度。我们证明了在所有情况下收敛速度的由两个项组成:(i)一个随机项,不受延迟的影响,和(ii)一个更高阶的确定性项,只是通过延迟线性减缓。因此,在存在噪声的情况下,延迟的影响在几次迭代后变得微不足道,算法以与标准 SGD 相同的最优速度收敛。我们进一步展示了在使用层压梯度(compressed gradients)进行错误补偿时以及在多个节点上做本地 SGD 之后通信的情况下,与现有最佳算法相比,我们得到了更好的结果。这些结果表明 SGD 对于压缩和/或延迟的随机梯度更新是具有鲁棒性的。这对于分布式并行实现特别重要,因为异步和通信高效方法是实现多设备优化的线性加速的关键。
Sep, 2019
分析了带偏差随机梯度方法的复杂性,特别是在非凸函数上的收敛性及更好的速率,探究了偏差大小对达到的准确性和收敛速率的影响,阐述了偏差梯度在分布式学习和无导数优化中的应用广泛性。
Jul, 2020
本文研究比较了两种标准的数据压缩方法:分布式量化SGD和分布式SGD反馈错误的压缩机在非独立同分布数据集的训练效果,结果表明,后者比前者更适合非独立同分布数据,但两种方法都会因为数据分布的不均匀而变慢。文中还提出一种对于强凸问题有效的方法和适用于线性压缩器的更通用的方法。
Sep, 2020
我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降(SGD)的新算法。我们的梯度压缩技术名为压平一位随机梯度下降(FO-SGD),它依赖于两个简单的算法思想:(i)利用抖动技术的一位量化过程,和(ii)在量化之前使用随机快速Walsh-Hadamard变换来压平随机梯度。因此,在该方案中,真实梯度的近似是有偏的,但它避免了常见的算法问题,如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上,我们证明了在温和条件下类似于SGD的收敛性保证。该压缩技术可在工作机-服务器通信的双向上使用,因此支持具有完整通信压缩的分布式优化。
May, 2024