分布式梯度下降的稀疏通讯
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法,证明了在一定的解析条件下,采用基于梯度幅值优先选择梯度部分更新方法具有收敛性,并验证了该方法的有效性并探究了其收敛条件。
Sep, 2018
通过减少信息交换的通信成本,提出了使用凸优化公式的随机梯度编码方法,该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题,同时经过正则化逻辑回归,支持向量机和卷积神经网络的实验验证了该方法的有效性。
Oct, 2017
通过使用压缩技术来减少通信成本,我们研究了在压缩向量所需的比特数和压缩误差之间的基本权衡,为最坏情况和平均情况提供了紧密的下界。我们引入了一种高效的压缩算子和一种简单的压缩算子,它们都能达到最低下界,并在实验中取得了很好的效果。
Oct, 2020
本研究旨在提出一种具有依赖误差补偿机制的 Qsparse-local-SGD 算法,该算法采用聚合式稀疏化和量化,以及局部计算方法,并且与其他算法相比在解决大规模学习模型中的通信问题上具备潜在的优越性。
Jun, 2019
提出了一种名为 Quantized SGD 的压缩梯度下降的算法,使用该算法可以在降低通信代价的同时保证收敛,且在图像分类和自动语音识别等多个实验中表现优异。
Oct, 2016
我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降(SGD)的新算法。我们的梯度压缩技术名为压平一位随机梯度下降(FO-SGD),它依赖于两个简单的算法思想:(i)利用抖动技术的一位量化过程,和(ii)在量化之前使用随机快速 Walsh-Hadamard 变换来压平随机梯度。因此,在该方案中,真实梯度的近似是有偏的,但它避免了常见的算法问题,如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上,我们证明了在温和条件下类似于 SGD 的收敛性保证。该压缩技术可在工作机 - 服务器通信的双向上使用,因此支持具有完整通信压缩的分布式优化。
May, 2024
使用稀疏性和基于范围的浮点表示方法,本文提出了一种新的梯度压缩框架,该框架在不影响准确性和收敛速度的情况下,显著提高了最流行的神经网络在大规模 GPU 集群上的可扩展性。
Nov, 2018
本文提出深度梯度压缩 (DGC),通过动量修正、局部梯度截断、动量因子掩模和预热训练,使得分布式 SGD 中 99.9% 的梯度交换变得不重要,从而大大减少通信带宽需求,有效保持模型准确率,支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。
Dec, 2017