分布式训练系统中高效的基于统计的梯度压缩技术
本文提出深度梯度压缩 (DGC),通过动量修正、局部梯度截断、动量因子掩模和预热训练,使得分布式 SGD 中 99.9% 的梯度交换变得不重要,从而大大减少通信带宽需求,有效保持模型准确率,支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。
Dec, 2017
本文提出了一种用于降低分布式深度学习通信开销的方法,通过延迟梯度更新以使得梯度可以在计算出高幅度、低方差的梯度后进行。在实验中,我们证明了该方法能够在保持模型准确性的同时实现非常高的压缩比,并分析了使用计算模型和通信模型的效率,提供了该方法能够实现在许多场景下使用基础设施的证据。
Feb, 2018
为了解决同步数据并行训练中的通信瓶颈,本研究评估了梯度压缩方法的有效性,并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现,仅有 6 种情况下,梯度压缩方法提供了速度优势。本研究提出了一种性能模型,用于确定在各种系统设置中梯度压缩的益处,并提出了一些理想的梯度压缩方法的性质列表,以获得有意义的综合优势。
Feb, 2021
近期,分布式深度学习在遥感应用中引起了更多的关注,其中梯度稀疏化被验证为一种有效压缩梯度的方法,以减少通信成本并加快训练速度。通过引入梯度邻域来增强梯度之间的相互依赖,并使用邻域统计指标(NSI)来定义梯度的重要性,我们提出了一种动态梯度压缩方案(RS-DGC)用于遥感图像解释,该方法在智能解释遥感图像方面优于现有方法。
Dec, 2023
在移动环境中,分布式机器学习面临着严重的通信瓶颈问题。梯度压缩已成为解决此问题的有效方法,在带宽有限和流量计费等环境中可以提供显著的好处。然而,在非 IID 环境中,由于一种适用于所有数据的压缩方法,它们遭遇到严重的性能下降。为具有不同数据分布和数据量的工作节点分配不同的压缩率因此是一个有前景的解决方案。本研究介绍了一种使用非均匀压缩的分布式 SGD 分析方法,揭示了收敛速率(指实现某个准确度所需的迭代次数)受应用于具有不同数据量的节点的压缩率的影响。因此,我们将相对压缩率分配作为一个 $n$ 个变量卡方非线性优化问题进行建模,并在通信开销有限的约束下进行求解。我们提出了 DAGC-R 方法,将具有较大数据量的节点分配保守的压缩率。鉴于移动设备的计算能力有限,我们还提出了 DAGC-A 方法,在非均匀数据分布的场景中具有较低的计算需求,并提高了绝对梯度压缩器的鲁棒性。实验证明,DAGC-A 和 DAGC-R 在处理高度不平衡的数据量分布和受限通信时能够获得更好的性能。
Nov, 2023
本文研究比较了两种标准的数据压缩方法:分布式量化 SGD 和分布式 SGD 反馈错误的压缩机在非独立同分布数据集的训练效果,结果表明,后者比前者更适合非独立同分布数据,但两种方法都会因为数据分布的不均匀而变慢。文中还提出一种对于强凸问题有效的方法和适用于线性压缩器的更通用的方法。
Sep, 2020
本研究提出了一种名为 ACP-SGD 的梯度压缩方法,可以加速分布式训练并具有三种甚至更优秀的系统优化技术,与 S-SGD 相比,优化后的 ACP-SGD 在减少压缩和通信开支的同时,能够实现相似的模型准确性。
Jun, 2023
研究表明,用于分布式学习的偏置压缩算子可以显著提高通信效率并达到线性收敛率,其性能优于其无偏压缩器。它们可用于随机梯度下降和分布式随机梯度下降,并且存在许多具有良好理论保证和实际性能的新偏置压缩器可供选择。
Feb, 2020
本文提出并分析了一种新型随机一阶方法:使用压缩迭代的梯度下降(GDCI)。GDCI 在每次迭代中首先使用失真随机压缩技术压缩当前迭代,然后进行梯度步骤。该方法是联邦学习实践中的关键要素之一的精华,其需要在将模型发送回服务器进行聚合之前由移动设备压缩。我们的分析为联邦学习的理论与实践之间的差距提供了一步,并开启了许多拓展的可能性。
Sep, 2019
该论文研究了去中心化训练深度学习模型的关键因素,提出使用通信压缩来解决网络带宽有限的问题,并通过 Choco-SGD 算法实现了高压缩下的快速收敛,同时支持更高压缩比例,实验结果表明在多种应用场景下具有很好的实际性能表现。
Jul, 2019