数据并行 SGD 的自适应梯度量化

Oct, 2020

Adaptive Gradient Quantization for Data-Parallel SGD

Fartash Faghri, Iman Tabrizian, Ilia Markov, Dan Alistarh, Daniel Roy...

TL;DR通过研究发现深度模型的梯度统计在训练过程中发生变化，于是引入两种自适应量化方案 ALQ 和 AMQ，显著改善了 CIFAR-10 和 ImageNet 的验证准确率，且更具鲁棒性。

Abstract

Many communication-efficient variants of sgd use gradient quantization schemes. These schemes are often heuristic and fixed over the course of training. We empirically observe that the statistics of gradients of

sgd gradient quantization deep models alq amq

发现论文，激发创造

QSGD: 通过梯度量化和编码实现通信高效的 SGD

提出了一种名为 Quantized SGD 的压缩梯度下降的算法，使用该算法可以在降低通信代价的同时保证收敛，且在图像分类和自动语音识别等多个实验中表现优异。

Oct, 2016

面向通信效率的联邦学习中模型更新的自适应量化

本文研究提出了 AdaQuant FL，一种自适应量化策略，旨在通过在训练过程中改变量化级别的数量来实现通信效率以及低误差率。实验表明，与固定量化级别设置相比，该方法可以在更少的通信比特数中收敛，几乎不会对训练和测试的准确性产生影响。

Feb, 2021

分布式优化的无偏单尺度和多尺度量化器

本文提出了一组全局归约兼容的梯度压缩方案，通过压缩梯度实现降低通信开销的目的，并取得比当前深度学习框架提供的方法更好的表现效果。

Sep, 2021

具有误差反馈的量化 Adam

本文提出一种分布式变体的自适应随机梯度方法用于训练深度神经网络，并通过梯度量化和权重量化等量化方案以及误差反馈技术来降低通信成本和量化误差，实现在随机非凸的场景下达到一阶稳定点，该方法在深度神经网络训练中取得了良好实验结果。

Apr, 2020

量化自适应次梯度算法及其应用

为了在分布式模型训练中平衡通信成本、模型容量和模型性能，本文提出了分布式训练的量化复合镜像下降自适应子梯度（QCMD adagrad）和量化正则化双均值自适应子梯度（QRDA adagrad）算法，利用梯度量化和稀疏模型降低每次迭代中的通信成本，并构建一个基于梯度的量化自适应学习率矩阵来实现通信成本、准确性和模型稀疏性之间的平衡，同时采用了阈值量化策略来提高信噪比和保持模型的稀疏性。

Aug, 2022

通过惰性聚合量化梯度进行高效的分布式学习通信

本文提出了一种新的集成梯度方法来进行分布式机器学习，其通过量化计算的梯度避免信息不足的梯度通信并高效减少通信开销。实验证明，与现有的基于梯度或随机梯度的算法相比，该算法可以显著减少通信量和通信轮数。

Sep, 2019

误差补偿量化 SGD 及其在大规模分布式优化中的应用

本文提出了误差补偿量化随机梯度下降算法以优化数据分布式学习中的性能瓶颈，并对其收敛性行为进行了理论分析，同时通过实验证明了该算法在梯度压缩方面具有较大优势。

Jun, 2018

关于异构数据分布式优化的通信压缩

本文研究比较了两种标准的数据压缩方法：分布式量化 SGD 和分布式 SGD 反馈错误的压缩机在非独立同分布数据集的训练效果，结果表明，后者比前者更适合非独立同分布数据，但两种方法都会因为数据分布的不均匀而变慢。文中还提出一种对于强凸问题有效的方法和适用于线性压缩器的更通用的方法。

Sep, 2020

分布式全图 GNN 训练的自适应消息量化和并行化

本文研究了分布式完全图训练的图神经网络（GNNs），提出了一种快速训练系统 AdaQP，并使用随机量化和通信计算并行化等技术来降低通信成本，实现了训练吞吐量的显著提升和误差微小的准确性改进。

Jun, 2023

最佳和近似最佳的自适应矢量量化

量化是许多机器学习应用中的基础优化之一，该研究论文重新审视自适应矢量量化问题，并提出了改进的时间和空间复杂度的最优解算法，以及适用于大型输入的更快的近似最优算法。实验结果表明这些算法可能在各种机器学习应用中更广泛地应用于自适应矢量量化。

Feb, 2024