ATOMO: 原子稀疏化通信高效学习

Jun, 2018

ATOMO: Communication-efficient Learning via Atomic Sparsification

Hongyi Wang, Scott Sievert, Zachary Charles, Dimitris Papailiopoulos, Stephen Wright

TL;DR本文提出了一种通用框架ATOMO，用于进行原子稀疏化，控制梯度更新的传输，加快分布式训练，该方法包括元素分解、奇异值分解和傅里叶分解等，通过稀疏化神经网络梯度的奇异值分解可以显著提升分布式训练速度。

Abstract

distributed model training suffers from communication overheads due to frequent gradient updates transmitted between compute nodes. To mitigate these overheads, several studies propose the use of sparsified stochastic g

发现论文，激发创造

通信高效分布式优化的梯度稀疏化

通过减少信息交换的通信成本，提出了使用凸优化公式的随机梯度编码方法，该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题，同时经过正则化逻辑回归，支持向量机和卷积神经网络的实验验证了该方法的有效性。

Oct, 2017

LAG：用于通信高效分布式学习的惰性聚合梯度

本文提出了一种新类的渐变方法，用于分布式机器学习，可以通过自适应地跳过梯度计算来降低通信和计算成本，并经过了数值实验的验证。

May, 2018

带记忆的稀疏化随机梯度下降

对于分布式算法，通过对随机梯度下降（SGD）的压缩（如 top-k 或 random-k）等技术进行分析，发现它在进行误差补偿的情况下，能够实现与传统 SGD 相同的收敛速度，降低数据通信量达到更好的分布式可扩展性。

Sep, 2018

稀疏梯度下降法的收敛性

本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法，证明了在一定的解析条件下，采用基于梯度幅值优先选择梯度部分更新方法具有收敛性，并验证了该方法的有效性并探究了其收敛条件。

Sep, 2018

通过惰性聚合量化梯度进行高效的分布式学习通信

本文提出了一种新的集成梯度方法来进行分布式机器学习，其通过量化计算的梯度避免信息不足的梯度通信并高效减少通信开销。实验证明，与现有的基于梯度或随机梯度的算法相比，该算法可以显著减少通信量和通信轮数。

Sep, 2019

关于分布式学习的偏压压缩研究

研究表明，用于分布式学习的偏置压缩算子可以显著提高通信效率并达到线性收敛率，其性能优于其无偏压缩器。它们可用于随机梯度下降和分布式随机梯度下降，并且存在许多具有良好理论保证和实际性能的新偏置压缩器可供选择。

Feb, 2020

rTop-k：分布式SGD的统计估计方法

本文提出一种基于统计估计模型的分布式机器学习通信优化方案，将梯度稀疏化技术与随机梯度业务结合，实现了通信效率与模型性能的均衡优化。

May, 2020

平滑矩阵胜过平滑常数：分布式优化的更好通信压缩技术

本文介绍了一种基于平滑矩阵的通信稀疏化策略，可以用于大规模分布式优化的监督学习模型，以加速训练过程并显著提高性能

Feb, 2021

MALCOM-PSGD：用于通信高效的分散式机器学习的近似近端随机梯度下降

近期的研究表明，频繁的模型通信是分布式机器学习（ML）尤其是针对大规模和过参数化的神经网络（NNs）效率的主要瓶颈。本文介绍了一种新的分布式ML算法MALCOM-PSGD，它在模型稀疏化中策略性地整合了梯度压缩技术。MALCOM-PSGD利用近端随机梯度下降来处理模型稀疏化中由于ℓ₁正则化而引起的非光滑性。此外，我们采用矢量源编码和基于抖动的量化来压缩稀疏模型的梯度通信。我们的分析表明，假设学习率递减，具有压缩通信的分布式近端随机梯度下降具有收敛速率为O(ln(t)/√(t))，其中t表示迭代次数。数值结果验证了我们的理论发现，并且证明我们的方法在比较于最先进的方法时可以将通信成本降低约75%。

Nov, 2023

MAST：模型无关稀疏化训练

引入了一种新的优化问题形式，与传统的最小化机器学习模型损失的黑盒函数的方式不同。通过明确地纳入最初预训练模型和随机草图运算符，允许在训练过程中对模型和梯度进行稀疏化。本研究提出的目标函数具有深刻的性质，并强调其与标准算法的联系。同时，还介绍了几种适应新问题形式的随机梯度下降（SGD）方法的变种，包括具有一般抽样的SGD、分布式版本和具有方差减小技术的SGD。通过这种面向稀疏化的优化方法，实现了更紧凑的收敛速度和放松了假设，填补了理论原则与实际应用之间的差距，涵盖了Dropout和稀疏训练等几种重要技术。该研究为通过稀疏化感知的优化方法增强对模型训练的理论理解提供了有希望的机会。

Nov, 2023