相关量化用于更快的非凸分布式优化

Jan, 2024

相关量化用于更快的非凸分布式优化

Correlated Quantization for Faster Nonconvex Distributed Optimization

Andrei Panferov, Yury Demidovich, Ahmad Rammal, Peter Richtárik

TL;DR利用相关量化器，我们分析并改进了 MARINA 优化算法，提高了通信复杂度，并且通过实验证实了我们的理论发现。

Abstract

quantization (Alistarh et al., 2017) is an important (stochastic) compression technique that reduces the volume of transmitted bits during each communication round in distributed model training. Suresh et al. (2022) introduce correlated quantizers and show their advantages over indepen

quantization compression technique correlated quantizers communication complexity marina

发现论文，激发创造

置换压缩器用于证明更快分布式非凸优化

本文研究了 Gorbunov 等人（2021 年）提出的 MARINA 方法，该方法利用精心设计的带偏置的随机梯度估计器和独立的随机通信压缩算子以最小化交流轮数和每轮传输的比特数，并将理论分析扩展到更广泛的相关压缩器的设置，引入 Hessian variane 的概念以及使用该方法的 Perm$K$ 压缩器类，理论上实现了较好的通信复杂性，并使用合成实验验证了该理论结果。

Oct, 2021

关于异构数据分布式优化的通信压缩

本文研究比较了两种标准的数据压缩方法：分布式量化 SGD 和分布式 SGD 反馈错误的压缩机在非独立同分布数据集的训练效果，结果表明，后者比前者更适合非独立同分布数据，但两种方法都会因为数据分布的不均匀而变慢。文中还提出一种对于强凸问题有效的方法和适用于线性压缩器的更通用的方法。

Sep, 2020

MARINA：使用压缩提升非凸分布式学习速度

本文提出了一种新的、基于压缩梯度差异的分布式学习方法 MARINA，并分别从理论和实践层面证明了该方法的优越性，特别是利用了偏梯度估计器和局部参与等特性。

Feb, 2021

数据并行 SGD 的自适应梯度量化

通过研究发现深度模型的梯度统计在训练过程中发生变化，于是引入两种自适应量化方案 ALQ 和 AMQ，显著改善了 CIFAR-10 和 ImageNet 的验证准确率，且更具鲁棒性。

Oct, 2020

分布式 SGD 的截断非均匀量化

为了解决分布式学习中的通信瓶颈挑战，本研究引入了一种新的两阶段量化策略，旨在增强分布式随机梯度下降（SGD）的通信效率。通过截断来减轻长尾噪声的影响，随后根据梯度的统计特征进行非均匀量化。我们为量化的分布式 SGD 提供了全面的收敛性分析，为其性能提供了理论保证。此外，通过最小化收敛误差，我们推导出了在给定通信约束下的截断阈值和非均匀量化水平的最优闭式解。理论洞察力和广泛的实验评估表明，我们的算法优于现有的量化方案，在通信效率和收敛性能之间达到了更优的平衡。

Feb, 2024

基于梯度量化和方差约束的随机分布式学习

研究了分布式优化问题，在量化梯度、降低方差的基础上，提出新的缩短收敛时间的方法，实现了对于任意量化梯度的线性收敛，解决了弱凸和非凸问题，并在实验中验证了其效率优于传统方法。

Apr, 2019

Qsparse-local-SGD: 带量化、稀疏化和本地计算的分布式 SGD

本研究旨在提出一种具有依赖误差补偿机制的 Qsparse-local-SGD 算法，该算法采用聚合式稀疏化和量化，以及局部计算方法，并且与其他算法相比在解决大规模学习模型中的通信问题上具备潜在的优越性。

Jun, 2019

强健且通信高效的协作学习

本文提出了一种名为 QuanTimed-DSGD 的新型分布式渐进优化算法，通过调整每个节点在算法每一步中本地计算梯度的截止时间和节点间交换量化本地模型的机制来解决分布式计算中经常遇到的滞后和通信效率低的问题，数值评估结果表明该算法与最先进的分布式优化方法相比，运行时间可提速至多 3 倍。

Jul, 2019

分布式优化的无偏单尺度和多尺度量化器

本文提出了一组全局归约兼容的梯度压缩方案，通过压缩梯度实现降低通信开销的目的，并取得比当前深度学习框架提供的方法更好的表现效果。

Sep, 2021

分布式优化中的量化规避鞍点

分布式非凸优化的研究中，我们发现量化过程可以用于避免收敛到鞍点，通过提出一种随机量化方案，证明其可以有效地避开鞍点并确保收敛到分布式非凸优化中的二阶稳定点，实验证实了这一方法的有效性，并通过对基准数据集上的分布式优化和学习问题进行了数值实验结果验证。

Mar, 2024