DEFT: 利用模型层之间的梯度范数差异实现可扩展梯度稀疏化

Jul, 2023

DEFT: 利用模型层之间的梯度范数差异实现可扩展梯度稀疏化

DEFT: Exploiting Gradient Norm Difference between Model Layers for Scalable Gradient Sparsification

Daegun Yoon, Sangyoon Oh

TL;DR梯度稀疏化是减少分布式深度学习中过多通信流量的广泛采用解决方案，然而，大多数现有的梯度稀疏化方法由于梯度选择的计算成本较高和 / 或由于梯度累积导致的通信流量增加而具有相对较差的可扩展性。为了解决这些挑战，我们提出了一种新颖的梯度稀疏化方案 DEFT，它将梯度选择任务划分为子任务并将其分配给工作节点。DEFT 与现有的稀疏化方法不同，在于每个工作节点在所有梯度中选择梯度。因此，随着工作节点的增加，可以减少计算成本。此外，DEFT 可以消除梯度累积，因为允许工作节点在不重叠的分区中选择梯度。因此，即使工作节点的数量增加，也可以根据用户要求保持通信流量不变。为了避免梯度选择的重要性损失，DEFT 在梯度范数较大的层中选择更多的梯度。由于每个层的计算负载不同，DEFT 使用装箱算法将层分配给工作节点，以在工作节点之间保持平衡的梯度选择负载。在我们的实证评估中，DEFT 在梯度选择的速度方面相对于现有的稀疏化方法显示出显著的训练性能改进，同时实现了高收敛性能。

Abstract

gradient sparsification is a widely adopted solution for reducing the excessive communication traffic in distributed deep learning. Howeve

gradient sparsification distributed deep learning communication traffic computational cost deft

发现论文，激发创造

保持最优梯度稀疏化成本的可扩展分布式深度学习

ExDyna 是一种新颖的梯度稀疏化方案，通过将模型的梯度张量分为细粒度的块并将连续的块分组成不重叠的分区，实现了减少通信开销、平衡工作负载和在线阈值调整，从而提高分布式训练系统的可扩展性和稀疏化性能。

Feb, 2024

超级神经元：基于 FFT 的梯度稀疏化在深度神经网络的分布式训练中的应用

使用稀疏性和基于范围的浮点表示方法，本文提出了一种新的梯度压缩框架，该框架在不影响准确性和收敛速度的情况下，显著提高了最流行的神经网络在大规模 GPU 集群上的可扩展性。

Nov, 2018

MiCRO：用于扩展和加速分布式 DNN 训练的几乎零成本梯度稀疏化

MiCRO 是一种新颖的梯度稀疏化方法，通过解决影响分布式深度神经网络训练可扩展性和加速度的问题，实现了接近零成本的梯度稀疏化，并具有出色的收敛速度。

Oct, 2023

分布式深度学习中的层自适应梯度稀疏化及收敛性保证

本文提出了一种新的分布式优化方法 LAGS-SGD，它结合了 S-SGD 与一种新的 LAGS 方案，通过采用分层自适应梯度稀疏来减少通信负担，实现了通信和计算之间的重叠，同时保证了收敛性能。在 16-GPU 群集上的实验结果表明，LAGS-SGD 在不失精度的情况下优于原始的 S-SGD 和现有的稀疏 S-SGD。

Nov, 2019

通信高效分布式优化的梯度稀疏化

通过减少信息交换的通信成本，提出了使用凸优化公式的随机梯度编码方法，该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题，同时经过正则化逻辑回归，支持向量机和卷积神经网络的实验验证了该方法的有效性。

Oct, 2017

SparDL：高效稀疏通信的分布式深度学习训练

提出了 SparDL，一种灵活而高效的稀疏通信框架，使用 Spar-Reduce-Scatter 算法来解决分布式深度学习中的梯度积累问题，并使用 Spar-All-Gather 算法进一步减少通信复杂度并调整延迟和带宽成本的比例，大量实验证明其卓越性能。

Apr, 2023

具有差分隐私的梯度稀疏化，实现高效的无线联合学习

通过设计基于随机稀疏化算法的梯度稀疏化联邦学习框架，该框架在无线信道上进行训练，提升了训练效率且不牺牲收敛性能，同时降低了差分隐私所引起的性能下降和无线信道传输参数数量。

Apr, 2023

深度神经网络的可微稀疏化

本文提出一种全可微的神经网络稀疏化方法，结合随机梯度下降，可以训练参数为零的稀疏结构和权重。该方法直接适用于现代深度神经网络，对现有模型的修改最小，并为未来的结构学习和模型压缩方法奠定了基础。

Oct, 2019

重新思考将梯度稀疏化作为总误差最小化问题

通过考虑整个训练过程的通信复杂度模型，使用硬阈值稀疏化进行梯度压缩可以比 Top-k 稀疏化更加高效地减少通信成本，特别是在大型深度神经网络上。

Aug, 2021

Transformer 屏蔽微调的梯度稀疏化

我们提出了 GradDrop 和其变体，一类梯度稀疏化方法，通过在反向传播过程中掩盖梯度作为梯度噪声来规范预训练语言模型，从而提高整体微调性能。在多语种 XGLUE 基准测试中的广泛实验表明，GradDrop 在中间预训练中使用额外翻译数据的方法上具有竞争力，并且优于标准的微调和渐进解冻方法。后续分析显示了 GradDrop 在未经训练的语言上如何提高性能，如资源匮乏的语言。

Jul, 2023