LASER: 线性压缩在无线分布式优化中的应用

Oct, 2023

LASER: 线性压缩在无线分布式优化中的应用

LASER: Linear Compression in Wireless Distributed Optimization

Ashok Vardhan Makkuva, Marco Bondaschi, Thijs Vogels, Martin Jaggi, Hyeji Kim...

TL;DR在分布式优化中，数据并行 SGD 是事实上的算法，但是通信瓶颈是一个持久性问题。本文介绍了 LASER 算法，它利用梯度的低秩结构，在噪声通道上高效传输，并在实际任务中相比基准表现更好。

Abstract

data-parallel sgd is the de facto algorithm for distributed optimization, especially for large scale machine learning. Despite its merits, communication bottleneck is one of its persistent issues. Most

data-parallel sgd communication bottleneck compression schemes distributed optimization laser

发现论文，激发创造

分布式优化的线性收敛算法：免费发送更少的比特！

提出了一种新的基于随机压缩算子的一阶随机算法和方差约简技术，能够在去除了通信中数据量的一定压缩的前提下，快速地在分散的装置上完成模型的机器学习训练并收敛于最优解。

Nov, 2020

在有限通信条件下维持分布式学习和优化的线性收敛性

研究分布式优化和机器学习中如何通过压缩信息和设计通信协议来降低通信时间并保持算法收敛性的方法和框架。

Feb, 2019

PowerGossip: 分散式深度學習中实用的低秩通信压缩

介绍了一种使用低秩线性压缩器直接压缩相邻工作器之间的模型差异的简单算法，在分布式机器学习训练中具有实际应用价值，无需额外的超参数，收敛速度比之前的方法快，并且在一系列深度学习基准测试中的表现与经过调优的最先进压缩算法相当。

Aug, 2020

关于异构数据分布式优化的通信压缩

本文研究比较了两种标准的数据压缩方法：分布式量化 SGD 和分布式 SGD 反馈错误的压缩机在非独立同分布数据集的训练效果，结果表明，后者比前者更适合非独立同分布数据，但两种方法都会因为数据分布的不均匀而变慢。文中还提出一种对于强凸问题有效的方法和适用于线性压缩器的更通用的方法。

Sep, 2020

分布式随机优化中的下限与通信压缩加速算法

本文研究了利用通信压缩的分布式随机优化算法的性能上限，并提出了 NEOLITHIC 算法，该算法在温和条件下实现所建立的理论下限。

May, 2023

PowerSGD: 分布式优化中的实用低秩梯度压缩

本文研究了梯度压缩方法以缓解数据并行分布式优化中的通信瓶颈，提出了一种基于幂迭代的新型低秩梯度压缩器，在快速压缩梯度、高效聚合压缩梯度并且在测试性能上与随机梯度下降（SGD）相当的情况下实现了持续的加速，该算法是唯一评估的方法，与具有优化的通信后端的常规 SGD 进行基准测试时实现了一致的挂钟加速，并且在常见数据集上展示了卷积网络以及 LSTM 的训练时间缩短。

May, 2019

分布式优化的无偏单尺度和多尺度量化器

本文提出了一组全局归约兼容的梯度压缩方案，通过压缩梯度实现降低通信开销的目的，并取得比当前深度学习框架提供的方法更好的表现效果。

Sep, 2021

分布式训练系统中梯度压缩的效用

为了解决同步数据并行训练中的通信瓶颈，本研究评估了梯度压缩方法的有效性，并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现，仅有 6 种情况下，梯度压缩方法提供了速度优势。本研究提出了一种性能模型，用于确定在各种系统设置中梯度压缩的益处，并提出了一些理想的梯度压缩方法的性质列表，以获得有意义的综合优势。

Feb, 2021

关于分布式学习的偏压压缩研究

研究表明，用于分布式学习的偏置压缩算子可以显著提高通信效率并达到线性收敛率，其性能优于其无偏压缩器。它们可用于随机梯度下降和分布式随机梯度下降，并且存在许多具有良好理论保证和实际性能的新偏置压缩器可供选择。

Feb, 2020

带记忆的稀疏化随机梯度下降

对于分布式算法，通过对随机梯度下降（SGD）的压缩（如 top-k 或 random-k）等技术进行分析，发现它在进行误差补偿的情况下，能够实现与传统 SGD 相同的收敛速度，降低数据通信量达到更好的分布式可扩展性。

Sep, 2018