重新思考将梯度稀疏化作为总误差最小化问题

Aug, 2021

重新思考将梯度稀疏化作为总误差最小化问题

Rethinking gradient sparsification as total error minimization

Atal Narayan Sahu, Aritra Dutta, Ahmed M. Abdelmoniem, Trambak Banerjee, Marco Canini...

TL;DR通过考虑整个训练过程的通信复杂度模型，使用硬阈值稀疏化进行梯度压缩可以比Top-k稀疏化更加高效地减少通信成本，特别是在大型深度神经网络上。

Abstract

gradient compression is a widely-established remedy to tackle the communication bottleneck in distributed training of large deep neural networks (DNNs). Under the error-feedback framework, Top-$k$ →

发现论文，激发创造

通信高效分布式优化的梯度稀疏化

通过减少信息交换的通信成本，提出了使用凸优化公式的随机梯度编码方法，该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题，同时经过正则化逻辑回归，支持向量机和卷积神经网络的实验验证了该方法的有效性。

Oct, 2017

带记忆的稀疏化随机梯度下降

对于分布式算法，通过对随机梯度下降（SGD）的压缩（如 top-k 或 random-k）等技术进行分析，发现它在进行误差补偿的情况下，能够实现与传统 SGD 相同的收敛速度，降低数据通信量达到更好的分布式可扩展性。

Sep, 2018

稀疏梯度下降法的收敛性

本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法，证明了在一定的解析条件下，采用基于梯度幅值优先选择梯度部分更新方法具有收敛性，并验证了该方法的有效性并探究了其收敛条件。

Sep, 2018

一种带有全局 Top-k 稀疏化的分布式同步 SGD 算法，用于低带宽网络

该论文提出一种基于全局 Top-k 稀疏化技术的分布式同步随机梯度下降 (S-SGD) 算法，该算法通过减少通信带宽来提高训练深度神经网络的效率，通过大量实验，验证了算法的收敛性能和泛化性能，实验结果表明该算法的可扩展性比 S-SGD 更高。

Jan, 2019

分布式深度学习中Top-k稀疏化的理解

本文研究了基于Top-k稀疏化技术的分布式随机梯度下降算法在训练深度学习模型中的通信负载问题，通过实验和理论推导，提出了更为准确的Top-k算子收敛性分析方法，并开发了一种GPU上高效的Top-k选取算法，提高了TopK-SGD的计算效率。

Nov, 2019

rTop-k：分布式SGD的统计估计方法

本文提出一种基于统计估计模型的分布式机器学习通信优化方案，将梯度稀疏化技术与随机梯度业务结合，实现了通信效率与模型性能的均衡优化。

May, 2020

分布式深度学习的近似最优稀疏全约简算法

本文提出了O$k$-Top$k$的方案，将新型稀疏同时求和算法与去中心化并行随机梯度下降（SGD）optimizer进行集成，达到与总结所有技术相当的模型精度，与优化密集型和最先进的稀疏同时求和相比，O$k$-Top$k$更具扩展性并显着提高了训练吞吐量。

Jan, 2022

超级计算环境中分布式深度学习的Top-k梯度稀疏化实证分析

该论文研究了使用Top-k SGD方法减少通信流量来提高深度学习模型在多GPU下的训练性能，但是因为在GPU上进行梯度排序效率低下，所以该方法具有局限性，提出未来工作的高性能梯度稀疏化方法。

Sep, 2022

MiCRO：用于扩展和加速分布式DNN训练的几乎零成本梯度稀疏化

MiCRO是一种新颖的梯度稀疏化方法，通过解决影响分布式深度神经网络训练可扩展性和加速度的问题，实现了接近零成本的梯度稀疏化，并具有出色的收敛速度。

Oct, 2023

通过贝叶斯推断的新型梯度稀疏化算法

本研究解决了分布式梯度下降中Top-$k$稀疏化方法的误差积累问题，这种方法可能会影响收敛性。提出的正则化Top-$k$（RegTop-$k$）算法通过最大后验估计确定贝叶斯最优稀疏化掩码，有效控制学习率的缩放。实验结果表明，在$0.1\%$的稀疏化率下，RegTop-$k$在ResNet-18和CIFAR-10数据集上的准确率比标准Top-$k$高出约$8\%$，显示出显著的提升潜力。

Sep, 2024