PowerGossip: 分散式深度學習中实用的低秩通信压缩
本文研究了梯度压缩方法以缓解数据并行分布式优化中的通信瓶颈,提出了一种基于幂迭代的新型低秩梯度压缩器,在快速压缩梯度、高效聚合压缩梯度并且在测试性能上与随机梯度下降(SGD)相当的情况下实现了持续的加速,该算法是唯一评估的方法,与具有优化的通信后端的常规 SGD 进行基准测试时实现了一致的挂钟加速,并且在常见数据集上展示了卷积网络以及 LSTM 的训练时间缩短。
May, 2019
该论文研究了去中心化训练深度学习模型的关键因素,提出使用通信压缩来解决网络带宽有限的问题,并通过 Choco-SGD 算法实现了高压缩下的快速收敛,同时支持更高压缩比例,实验结果表明在多种应用场景下具有很好的实际性能表现。
Jul, 2019
本研究提出了一种名为 ACP-SGD 的梯度压缩方法,可以加速分布式训练并具有三种甚至更优秀的系统优化技术,与 S-SGD 相比,优化后的 ACP-SGD 在减少压缩和通信开支的同时,能够实现相似的模型准确性。
Jun, 2023
本文提出深度梯度压缩 (DGC),通过动量修正、局部梯度截断、动量因子掩模和预热训练,使得分布式 SGD 中 99.9% 的梯度交换变得不重要,从而大大减少通信带宽需求,有效保持模型准确率,支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。
Dec, 2017
研究如何将通信压缩和分散化技术相结合,以提高分布式学习系统的鲁棒性。作者提出了一种压缩分散训练的框架,并且提出了两种不同的策略,称为外推压缩和差异压缩。通过分析和验证,该算法显著优于仅分散化和仅量化算法。
Mar, 2018
通过实验和理论分析,本文表明在深度神经网络的分布式数据并行训练中,面向单个层的压缩比面向整个模型的压缩方式更好,但实验也显示,具体训练模型和压缩率都可能导致实际收敛率的变化。因此,本文建议深度学习框架应支持面向单个层和整个模型的压缩方式。
Nov, 2019
本文提出了一种用于降低分布式深度学习通信开销的方法,通过延迟梯度更新以使得梯度可以在计算出高幅度、低方差的梯度后进行。在实验中,我们证明了该方法能够在保持模型准确性的同时实现非常高的压缩比,并分析了使用计算模型和通信模型的效率,提供了该方法能够实现在许多场景下使用基础设施的证据。
Feb, 2018
提出了一种新的基于随机压缩算子的一阶随机算法和方差约简技术,能够在去除了通信中数据量的一定压缩的前提下,快速地在分散的装置上完成模型的机器学习训练并收敛于最优解。
Nov, 2020
AdaGossip 是一种新的技术,根据相邻代理之间的压缩模型差异自适应调整共识步长,通过大量实验证明在分布式学习中具有压缩通信时,相比于当前的最先进方法,在测试准确率上实现了卓越的性能(提高了 0-2% 的测试准确率)。
Apr, 2024
提出了一种基于 Nesterov 的动量的分布式压缩的 SGD 方法,通过两种方式压缩梯度并将梯度分块,每个梯度块都以 1 位格式进行压缩和传输,并实现了近 32 倍的通信降低,实验表明该方法与精度相同的动量 SGD 收敛速度相同,并在分布式 ResNet 训练中达到与全精度梯度动量 SGD 相同的测试精度,而时间缩短了 46%。
May, 2019