分布式梯度下降的稀疏通讯

EMNLPApr, 2017

Sparse Communication for Distributed Gradient Descent

Alham Fikri Aji, Kenneth Heafield

TL;DR使用稀疏更新替代密集更新的分布式随机梯度下降法，在保持准确性不变的情况下，能够在 MNIST 数据集中实现最高 49% 的加速和在神经机器翻译任务中实现最高 22% 的加速。

Abstract

We make distributed stochastic gradient descent faster by exchanging sparse updates instead of dense updates. Gradient updates are positively skewed as most updates are near zero, so we map the 99% smallest updates (by absolute value) to zero then exchange sparse matrices. This method

stochastic gradient descent sparse updates quantization neural machine translation mnist

发现论文，激发创造

带记忆的稀疏化随机梯度下降

对于分布式算法，通过对随机梯度下降（SGD）的压缩（如 top-k 或 random-k）等技术进行分析，发现它在进行误差补偿的情况下，能够实现与传统 SGD 相同的收敛速度，降低数据通信量达到更好的分布式可扩展性。

Sep, 2018

稀疏梯度下降法的收敛性

本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法，证明了在一定的解析条件下，采用基于梯度幅值优先选择梯度部分更新方法具有收敛性，并验证了该方法的有效性并探究了其收敛条件。

Sep, 2018

通信高效分布式优化的梯度稀疏化

通过减少信息交换的通信成本，提出了使用凸优化公式的随机梯度编码方法，该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题，同时经过正则化逻辑回归，支持向量机和卷积神经网络的实验验证了该方法的有效性。

Oct, 2017

分布式优化的无偏单尺度和多尺度量化器

本文提出了一组全局归约兼容的梯度压缩方案，通过压缩梯度实现降低通信开销的目的，并取得比当前深度学习框架提供的方法更好的表现效果。

Sep, 2021

分布式和联邦学习的最优梯度压缩

通过使用压缩技术来减少通信成本，我们研究了在压缩向量所需的比特数和压缩误差之间的基本权衡，为最坏情况和平均情况提供了紧密的下界。我们引入了一种高效的压缩算子和一种简单的压缩算子，它们都能达到最低下界，并在实验中取得了很好的效果。

Oct, 2020

Qsparse-local-SGD: 带量化、稀疏化和本地计算的分布式 SGD

本研究旨在提出一种具有依赖误差补偿机制的 Qsparse-local-SGD 算法，该算法采用聚合式稀疏化和量化，以及局部计算方法，并且与其他算法相比在解决大规模学习模型中的通信问题上具备潜在的优越性。

Jun, 2019

QSGD: 通过梯度量化和编码实现通信高效的 SGD

提出了一种名为 Quantized SGD 的压缩梯度下降的算法，使用该算法可以在降低通信代价的同时保证收敛，且在图像分类和自动语音识别等多个实验中表现优异。

Oct, 2016

扁平化一比特随机梯度下降：受控方差的压缩分布式优化

我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降（SGD）的新算法。我们的梯度压缩技术名为压平一位随机梯度下降（FO-SGD），它依赖于两个简单的算法思想：（i）利用抖动技术的一位量化过程，和（ii）在量化之前使用随机快速 Walsh-Hadamard 变换来压平随机梯度。因此，在该方案中，真实梯度的近似是有偏的，但它避免了常见的算法问题，如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上，我们证明了在温和条件下类似于 SGD 的收敛性保证。该压缩技术可在工作机 - 服务器通信的双向上使用，因此支持具有完整通信压缩的分布式优化。

May, 2024

超级神经元：基于 FFT 的梯度稀疏化在深度神经网络的分布式训练中的应用

使用稀疏性和基于范围的浮点表示方法，本文提出了一种新的梯度压缩框架，该框架在不影响准确性和收敛速度的情况下，显著提高了最流行的神经网络在大规模 GPU 集群上的可扩展性。

Nov, 2018

深度梯度压缩：降低分布式训练的通信带宽

本文提出深度梯度压缩 (DGC)，通过动量修正、局部梯度截断、动量因子掩模和预热训练，使得分布式 SGD 中 99.9% 的梯度交换变得不重要，从而大大减少通信带宽需求，有效保持模型准确率，支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。

Dec, 2017