模型并行训练的激活和梯度压缩

Jan, 2024

Activations and Gradients Compression for Model-Parallel Training

Mikhail Rudakov, Aleksandr Beznosikov, Yaroslav Kholodov, Alexander Gasnikov

TL;DR大型神经网络的模型并行训练中，同时压缩激活和梯度对收敛性的影响进行了探索，实验证明梯度对于压缩的要求比激活更低，使用 TopK 技术在推理阶段也需要进行压缩，误差反馈技术在模型并行训练中并没有提高性能，但在推理阶段允许无压缩的模型推理并且品质几乎没有下降，此外，使用 AQ-SGD 方法时，比 K=30% 更强的 TopK 会显著降低模型性能。

Abstract

large neural networks require enormous computational clusters of machines. model-parallel training, when the model architecture is partitioned sequentially between workers, is a popular approach for training mode

large neural networks model-parallel training compression convergence error feedback

发现论文，激发创造

分布式训练系统中梯度压缩的效用

为了解决同步数据并行训练中的通信瓶颈，本研究评估了梯度压缩方法的有效性，并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现，仅有 6 种情况下，梯度压缩方法提供了速度优势。本研究提出了一种性能模型，用于确定在各种系统设置中梯度压缩的益处，并提出了一些理想的梯度压缩方法的性质列表，以获得有意义的综合优势。

Feb, 2021

分布式优化的无偏单尺度和多尺度量化器

本文提出了一组全局归约兼容的梯度压缩方案，通过压缩梯度实现降低通信开销的目的，并取得比当前深度学习框架提供的方法更好的表现效果。

Sep, 2021

分布式深度学习梯度压缩的评估与优化

本研究提出了一种名为 ACP-SGD 的梯度压缩方法，可以加速分布式训练并具有三种甚至更优秀的系统优化技术，与 S-SGD 相比，优化后的 ACP-SGD 在减少压缩和通信开支的同时，能够实现相似的模型准确性。

Jun, 2023

带记忆的稀疏化随机梯度下降

对于分布式算法，通过对随机梯度下降（SGD）的压缩（如 top-k 或 random-k）等技术进行分析，发现它在进行误差补偿的情况下，能够实现与传统 SGD 相同的收敛速度，降低数据通信量达到更好的分布式可扩展性。

Sep, 2018

分布式深度学习压缩通信的理论分析与实际实现之间的差异

通过实验和理论分析，本文表明在深度神经网络的分布式数据并行训练中，面向单个层的压缩比面向整个模型的压缩方式更好，但实验也显示，具体训练模型和压缩率都可能导致实际收敛率的变化。因此，本文建议深度学习框架应支持面向单个层和整个模型的压缩方式。

Nov, 2019

重新思考将梯度稀疏化作为总误差最小化问题

通过考虑整个训练过程的通信复杂度模型，使用硬阈值稀疏化进行梯度压缩可以比 Top-k 稀疏化更加高效地减少通信成本，特别是在大型深度神经网络上。

Aug, 2021

深度梯度压缩：降低分布式训练的通信带宽

本文提出深度梯度压缩 (DGC)，通过动量修正、局部梯度截断、动量因子掩模和预热训练，使得分布式 SGD 中 99.9% 的梯度交换变得不重要，从而大大减少通信带宽需求，有效保持模型准确率，支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。

Dec, 2017

超级计算环境中分布式深度学习的 Top-k 梯度稀疏化实证分析

该论文研究了使用 Top-k SGD 方法减少通信流量来提高深度学习模型在多 GPU 下的训练性能，但是因为在 GPU 上进行梯度排序效率低下，所以该方法具有局限性，提出未来工作的高性能梯度稀疏化方法。

Sep, 2022

自然语言任务上结合压缩的乘法尺度缩放

本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪，发现量化和知识蒸馏提供了比修剪更大的好处，同时多种方法的组合具有协同减小模型大小的效果。

Aug, 2022

数据并行 SGD 的自适应梯度量化

通过研究发现深度模型的梯度统计在训练过程中发生变化，于是引入两种自适应量化方案 ALQ 和 AMQ，显著改善了 CIFAR-10 和 ImageNet 的验证准确率，且更具鲁棒性。

Oct, 2020