具有误差反馈的量化 Adam

Apr, 2020

Quantized Adam with Error Feedback

Congliang Chen, Li Shen, Haozhi Huang, Wei Liu

TL;DR本文提出一种分布式变体的自适应随机梯度方法用于训练深度神经网络，并通过梯度量化和权重量化等量化方案以及误差反馈技术来降低通信成本和量化误差，实现在随机非凸的场景下达到一阶稳定点，该方法在深度神经网络训练中取得了良好实验结果。

Abstract

In this paper, we present a distributed variant of adaptive stochastic gradient method for training deep neural networks in the parameter-server model. To reduce the communication cost among the workers and server, we incorporate two types of quantization schemes, i.e., gradient quanti

distributed deep learning stochastic gradient method quantization schemes error-feedback technique neural network training

发现论文，激发创造

高效 Adam：具复杂度分析的通信高效分布式 Adam

本文提出了一种称为 Efficient-Adam 的新型通信高效的分布式优化算法，采用双向量化策略和双向误差反馈策略，在保证迭代收敛精度的同时有效减少了服务器与工作节点之间的通信成本，并应用于解决了一个随机凸优化问题，以及在实际视觉和语言任务中训练深度学习模型，同时进行了大量实验和理论分析以验证其优越性。

May, 2022

面向通信效率的联邦学习中模型更新的自适应量化

本文研究提出了 AdaQuant FL，一种自适应量化策略，旨在通过在训练过程中改变量化级别的数量来实现通信效率以及低误差率。实验表明，与固定量化级别设置相比，该方法可以在更少的通信比特数中收敛，几乎不会对训练和测试的准确性产生影响。

Feb, 2021

数据并行 SGD 的自适应梯度量化

通过研究发现深度模型的梯度统计在训练过程中发生变化，于是引入两种自适应量化方案 ALQ 和 AMQ，显著改善了 CIFAR-10 和 ImageNet 的验证准确率，且更具鲁棒性。

Oct, 2020

误差补偿量化 SGD 及其在大规模分布式优化中的应用

本文提出了误差补偿量化随机梯度下降算法以优化数据分布式学习中的性能瓶颈，并对其收敛性行为进行了理论分析，同时通过实验证明了该算法在梯度压缩方面具有较大优势。

Jun, 2018

量化自适应次梯度算法及其应用

为了在分布式模型训练中平衡通信成本、模型容量和模型性能，本文提出了分布式训练的量化复合镜像下降自适应子梯度（QCMD adagrad）和量化正则化双均值自适应子梯度（QRDA adagrad）算法，利用梯度量化和稀疏模型降低每次迭代中的通信成本，并构建一个基于梯度的量化自适应学习率矩阵来实现通信成本、准确性和模型稀疏性之间的平衡，同时采用了阈值量化策略来提高信噪比和保持模型的稀疏性。

Aug, 2022

基于梯度量化和方差约束的随机分布式学习

研究了分布式优化问题，在量化梯度、降低方差的基础上，提出新的缩短收敛时间的方法，实现了对于任意量化梯度的线性收敛，解决了弱凸和非凸问题，并在实验中验证了其效率优于传统方法。

Apr, 2019

Q-GADMM：量化组 ADMM 用于通信高效的分散机器学习

本文提出了一种通信高效的、去中心化的机器学习算法 —— 量化组 ADMM (Q-GADMM)，通过量化减少通信链接，采用随机量化方法进行误差传播控制，以及利用深度神经网络架构与随机采样的量化随机 GADMM (Q-SGADMM)，通过对多项测试结果的对比表明，该算法在通信效率方面明显优于 GADMM，在同等时间内实现了相同的准确率和收敛速度。

Oct, 2019

分布式优化的无偏单尺度和多尺度量化器

本文提出了一组全局归约兼容的梯度压缩方案，通过压缩梯度实现降低通信开销的目的，并取得比当前深度学习框架提供的方法更好的表现效果。

Sep, 2021

通过惰性聚合量化梯度进行高效的分布式学习通信

本文提出了一种新的集成梯度方法来进行分布式机器学习，其通过量化计算的梯度避免信息不足的梯度通信并高效减少通信开销。实验证明，与现有的基于梯度或随机梯度的算法相比，该算法可以显著减少通信量和通信轮数。

Sep, 2019

分布式全图 GNN 训练的自适应消息量化和并行化

本文研究了分布式完全图训练的图神经网络（GNNs），提出了一种快速训练系统 AdaQP，并使用随机量化和通信计算并行化等技术来降低通信成本，实现了训练吞吐量的显著提升和误差微小的准确性改进。

Jun, 2023