GraVAC:通信高效的分布式深度学习训练自适应压缩
本文提出深度梯度压缩 (DGC),通过动量修正、局部梯度截断、动量因子掩模和预热训练,使得分布式 SGD 中 99.9% 的梯度交换变得不重要,从而大大减少通信带宽需求,有效保持模型准确率,支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。
Dec, 2017
本文提出了一种用于降低分布式深度学习通信开销的方法,通过延迟梯度更新以使得梯度可以在计算出高幅度、低方差的梯度后进行。在实验中,我们证明了该方法能够在保持模型准确性的同时实现非常高的压缩比,并分析了使用计算模型和通信模型的效率,提供了该方法能够实现在许多场景下使用基础设施的证据。
Feb, 2018
为了解决同步数据并行训练中的通信瓶颈,本研究评估了梯度压缩方法的有效性,并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现,仅有 6 种情况下,梯度压缩方法提供了速度优势。本研究提出了一种性能模型,用于确定在各种系统设置中梯度压缩的益处,并提出了一些理想的梯度压缩方法的性质列表,以获得有意义的综合优势。
Feb, 2021
本文提出一种名为 Accordion 的自适应压缩算法,用于解决分布式模型训练中由于频繁的模型更新导致的通信瓶颈问题,该算法能够在保持最终测试准确度的情况下减少通信,实验结果表明 Accordion 相比于静态压缩算法可获得高达 5.5 倍的压缩率和 4.1 倍的端到端加速。
Oct, 2020
在移动环境中,分布式机器学习面临着严重的通信瓶颈问题。梯度压缩已成为解决此问题的有效方法,在带宽有限和流量计费等环境中可以提供显著的好处。然而,在非 IID 环境中,由于一种适用于所有数据的压缩方法,它们遭遇到严重的性能下降。为具有不同数据分布和数据量的工作节点分配不同的压缩率因此是一个有前景的解决方案。本研究介绍了一种使用非均匀压缩的分布式 SGD 分析方法,揭示了收敛速率(指实现某个准确度所需的迭代次数)受应用于具有不同数据量的节点的压缩率的影响。因此,我们将相对压缩率分配作为一个 $n$ 个变量卡方非线性优化问题进行建模,并在通信开销有限的约束下进行求解。我们提出了 DAGC-R 方法,将具有较大数据量的节点分配保守的压缩率。鉴于移动设备的计算能力有限,我们还提出了 DAGC-A 方法,在非均匀数据分布的场景中具有较低的计算需求,并提高了绝对梯度压缩器的鲁棒性。实验证明,DAGC-A 和 DAGC-R 在处理高度不平衡的数据量分布和受限通信时能够获得更好的性能。
Nov, 2023
本文提出了自适应残差梯度压缩(AdaComp)技术,能够在多个领域、数据集、优化器和网络参数上显著地提高深度学习模型的性能,实现全连接层和循环层的端到端压缩率约 200 倍,卷积层的压缩率约 40 倍。
Dec, 2017
在分布式图神经网络训练中引入了一种变化的压缩方案,用于减少通信量而不降低学习模型的准确性,并通过理论分析和实证结果证明了其性能优于完全通信情况下的压缩比。
Jun, 2024
该论文研究了去中心化训练深度学习模型的关键因素,提出使用通信压缩来解决网络带宽有限的问题,并通过 Choco-SGD 算法实现了高压缩下的快速收敛,同时支持更高压缩比例,实验结果表明在多种应用场景下具有很好的实际性能表现。
Jul, 2019
介绍了一种使用低秩线性压缩器直接压缩相邻工作器之间的模型差异的简单算法,在分布式机器学习训练中具有实际应用价值,无需额外的超参数,收敛速度比之前的方法快,并且在一系列深度学习基准测试中的表现与经过调优的最先进压缩算法相当。
Aug, 2020
本研究提出了一种名为 ACP-SGD 的梯度压缩方法,可以加速分布式训练并具有三种甚至更优秀的系统优化技术,与 S-SGD 相比,优化后的 ACP-SGD 在减少压缩和通信开支的同时,能够实现相似的模型准确性。
Jun, 2023