MALCOM-PSGD：用于通信高效的分散式机器学习的近似近端随机梯度下降

Nov, 2023

MALCOM-PSGD：用于通信高效的分散式机器学习的近似近端随机梯度下降

MALCOM-PSGD: Inexact Proximal Stochastic Gradient Descent for Communication-Efficient Decentralized Machine Learning

Andrew Campbell, Hang Liu, Leah Woldemariam, Anna Scaglione

TL;DR近期的研究表明，频繁的模型通信是分布式机器学习（ML）尤其是针对大规模和过参数化的神经网络（NNs）效率的主要瓶颈。本文介绍了一种新的分布式 ML 算法 MALCOM-PSGD，它在模型稀疏化中策略性地整合了梯度压缩技术。MALCOM-PSGD 利用近端随机梯度下降来处理模型稀疏化中由于ℓ₁正则化而引起的非光滑性。此外，我们采用矢量源编码和基于抖动的量化来压缩稀疏模型的梯度通信。我们的分析表明，假设学习率递减，具有压缩通信的分布式近端随机梯度下降具有收敛速率为 O (ln (t)/√(t))，其中 t 表示迭代次数。数值结果验证了我们的理论发现，并且证明我们的方法在比较于最先进的方法时可以将通信成本降低约 75%。

Abstract

Recent research indicates that frequent model communication stands as a major bottleneck to the efficiency of decentralized machine learning (ML), particularly for large-scale and over-parameterized neural networks (NNs). In this paper, we introduce MALCOM-PSGD, a new decentralized ML

decentralized machine learning gradient compression techniques model sparsification proximal stochastic gradient descent compressed gradient communication

发现论文，激发创造

任意通信压缩下的分散式深度学习

该论文研究了去中心化训练深度学习模型的关键因素，提出使用通信压缩来解决网络带宽有限的问题，并通过 Choco-SGD 算法实现了高压缩下的快速收敛，同时支持更高压缩比例，实验结果表明在多种应用场景下具有很好的实际性能表现。

Jul, 2019

PowerGossip: 分散式深度學習中实用的低秩通信压缩

介绍了一种使用低秩线性压缩器直接压缩相邻工作器之间的模型差异的简单算法，在分布式机器学习训练中具有实际应用价值，无需额外的超参数，收敛速度比之前的方法快，并且在一系列深度学习基准测试中的表现与经过调优的最先进压缩算法相当。

Aug, 2020

一种稀疏差分高斯掩码分布式 SGD 方法：私密且通信高效的边缘学习

本文提出了一种新的分散式隨機梯度方法，用於非凸分散式邊緣學習，以提高數據隱私和通信效率的性能指標。該方法在理論上確立了隱私性和通信效率的性能保證，實驗結果證明了該方法能夠兼顧兩者，是現有作品的優秀方法。

Jan, 2020

QSGD: 通过梯度量化和编码实现通信高效的 SGD

提出了一种名为 Quantized SGD 的压缩梯度下降的算法，使用该算法可以在降低通信代价的同时保证收敛，且在图像分类和自动语音识别等多个实验中表现优异。

Oct, 2016

更快的分布式深度神经网络训练：计算和通信解耦合的随机梯度下降

本文提出了 Computation and Communication Decoupling Stochastic Gradient Descent (CoCoD-SGD) 算法，实现了计算和通信的并行处理，有效减少了通信开销，较传统分布式 SGD 算法具有更高的时间加速度，在 16 个 GPU 上的 ResNet18 和 VGG16 深度神经网络训练表现出 2-3 倍的速度提升。

Jun, 2019

Q-GADMM：量化组 ADMM 用于通信高效的分散机器学习

本文提出了一种通信高效的、去中心化的机器学习算法 —— 量化组 ADMM (Q-GADMM)，通过量化减少通信链接，采用随机量化方法进行误差传播控制，以及利用深度神经网络架构与随机采样的量化随机 GADMM (Q-SGADMM)，通过对多项测试结果的对比表明，该算法在通信效率方面明显优于 GADMM，在同等时间内实现了相同的准确率和收敛速度。

Oct, 2019

带记忆的稀疏化随机梯度下降

对于分布式算法，通过对随机梯度下降（SGD）的压缩（如 top-k 或 random-k）等技术进行分析，发现它在进行误差补偿的情况下，能够实现与传统 SGD 相同的收敛速度，降低数据通信量达到更好的分布式可扩展性。

Sep, 2018

具有误差反馈的通信高效分布式块动量 SGD

提出了一种基于 Nesterov 的动量的分布式压缩的 SGD 方法，通过两种方式压缩梯度并将梯度分块，每个梯度块都以 1 位格式进行压缩和传输，并实现了近 32 倍的通信降低，实验表明该方法与精度相同的动量 SGD 收敛速度相同，并在分布式 ResNet 训练中达到与全精度梯度动量 SGD 相同的测试精度，而时间缩短了 46％。

May, 2019

去中心化随机优化和 Gossip 算法的压缩通信

提出了一种基于 gossip 的分散随机优化算法 CHOCO-SGD 和解决平均一致性问题的新型 gossip 算法 CHOCO-GOSSIP，旨在在机器学习任务上实现数据分布和优化，有效降低通信成本并能提高算法效率。

Feb, 2019

扁平化一比特随机梯度下降：受控方差的压缩分布式优化

我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降（SGD）的新算法。我们的梯度压缩技术名为压平一位随机梯度下降（FO-SGD），它依赖于两个简单的算法思想：（i）利用抖动技术的一位量化过程，和（ii）在量化之前使用随机快速 Walsh-Hadamard 变换来压平随机梯度。因此，在该方案中，真实梯度的近似是有偏的，但它避免了常见的算法问题，如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上，我们证明了在温和条件下类似于 SGD 的收敛性保证。该压缩技术可在工作机 - 服务器通信的双向上使用，因此支持具有完整通信压缩的分布式优化。

May, 2024