灵活通信实现不确定网络下的最优分布式学习

Dec, 2023

灵活通信实现不确定网络下的最优分布式学习

Flexible Communication for Optimal Distributed Learning over Unpredictable Networks

Sahil Tyagi, Martin Swany

TL;DR梯度压缩通过发送更少的值和对应的索引（通常通过 Allgather）来减轻分布式深度学习中昂贵的通信成本。本文提出了一种与 Allreduce 兼容的 Topk 压缩器，在某些网络配置中比 Allgather 表现更好。我们开发了一种灵活的通信策略，根据当前设置中哪个集合操作最优，切换 AG 和 AR 之间的选择，并将并行效率和统计效率的帕累托关系建模为一个多目标优化问题，以动态调整压缩比并加速训练，同时仍收敛于高准确性。

Abstract

gradient compression alleviates expensive communication in distributed deep learning by sending fewer values and its corresponding indices, typically via Allgather (AG). Training with high compression ratio (CR) achieves high accuracy like DenseSGD, but has lower parallel scaling due t

gradient compression distributed deep learning communication cost parallel efficiency multi-objective optimization

发现论文，激发创造

手风琴：通过关键学习模式识别实现自适应梯度通信

本文提出一种名为 Accordion 的自适应压缩算法，用于解决分布式模型训练中由于频繁的模型更新导致的通信瓶颈问题，该算法能够在保持最终测试准确度的情况下减少通信，实验结果表明 Accordion 相比于静态压缩算法可获得高达 5.5 倍的压缩率和 4.1 倍的端到端加速。

Oct, 2020

分布式深度学习的近似最优稀疏全约简算法

本文提出了 O$k$-Top$k$ 的方案，将新型稀疏同时求和算法与去中心化并行随机梯度下降（SGD）optimizer 进行集成，达到与总结所有技术相当的模型精度，与优化密集型和最先进的稀疏同时求和相比，O$k$-Top$k$ 更具扩展性并显着提高了训练吞吐量。

Jan, 2022

分布式深度学习梯度压缩的评估与优化

本研究提出了一种名为 ACP-SGD 的梯度压缩方法，可以加速分布式训练并具有三种甚至更优秀的系统优化技术，与 S-SGD 相比，优化后的 ACP-SGD 在减少压缩和通信开支的同时，能够实现相似的模型准确性。

Jun, 2023

压缩联邦学习：统一分析和精确保证

通过定期压缩通信的算法，分析其收敛性并探讨其与局部计算的关系，提出了一种本地梯度追踪方案，以缓解数据异质性，实现了更快的收敛速度和更好的算法效果。

Jul, 2020

分布式优化的无偏单尺度和多尺度量化器

本文提出了一组全局归约兼容的梯度压缩方案，通过压缩梯度实现降低通信开销的目的，并取得比当前深度学习框架提供的方法更好的表现效果。

Sep, 2021

GraVAC：通信高效的分布式深度学习训练自适应压缩

本文介绍了 GraVAC，一种动态调整压缩因子的框架，用于在分布式数据并行训练中降低通信开销并提高训练速度。GraVAC 可以根据模型进展和梯度信息损失自适应地进行压缩，相较于静态压缩因子，可以将 ResNet101，VGG16 和 LSTM 的端到端训练时间分别缩短 4.32x，1.95x 和 6.67x，相较于其他自适应方案，整体加速比可达 1.94x 至 5.63x。

May, 2023

DAGC：面向移动计算的分布式机器学习数据容量感知自适应稀疏梯度压缩

在移动环境中，分布式机器学习面临着严重的通信瓶颈问题。梯度压缩已成为解决此问题的有效方法，在带宽有限和流量计费等环境中可以提供显著的好处。然而，在非 IID 环境中，由于一种适用于所有数据的压缩方法，它们遭遇到严重的性能下降。为具有不同数据分布和数据量的工作节点分配不同的压缩率因此是一个有前景的解决方案。本研究介绍了一种使用非均匀压缩的分布式 SGD 分析方法，揭示了收敛速率（指实现某个准确度所需的迭代次数）受应用于具有不同数据量的节点的压缩率的影响。因此，我们将相对压缩率分配作为一个 $n$ 个变量卡方非线性优化问题进行建模，并在通信开销有限的约束下进行求解。我们提出了 DAGC-R 方法，将具有较大数据量的节点分配保守的压缩率。鉴于移动设备的计算能力有限，我们还提出了 DAGC-A 方法，在非均匀数据分布的场景中具有较低的计算需求，并提高了绝对梯度压缩器的鲁棒性。实验证明，DAGC-A 和 DAGC-R 在处理高度不平衡的数据量分布和受限通信时能够获得更好的性能。

Nov, 2023

深度梯度压缩：降低分布式训练的通信带宽

本文提出深度梯度压缩 (DGC)，通过动量修正、局部梯度截断、动量因子掩模和预热训练，使得分布式 SGD 中 99.9% 的梯度交换变得不重要，从而大大减少通信带宽需求，有效保持模型准确率，支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。

Dec, 2017

SparDL：高效稀疏通信的分布式深度学习训练

提出了 SparDL，一种灵活而高效的稀疏通信框架，使用 Spar-Reduce-Scatter 算法来解决分布式深度学习中的梯度积累问题，并使用 Spar-All-Gather 算法进一步减少通信复杂度并调整延迟和带宽成本的比例，大量实验证明其卓越性能。

Apr, 2023

任意通信压缩下的分散式深度学习

该论文研究了去中心化训练深度学习模型的关键因素，提出使用通信压缩来解决网络带宽有限的问题，并通过 Choco-SGD 算法实现了高压缩下的快速收敛，同时支持更高压缩比例，实验结果表明在多种应用场景下具有很好的实际性能表现。

Jul, 2019