压缩梯度差异的分布式学习
本文提出了一种用于降低分布式深度学习通信开销的方法,通过延迟梯度更新以使得梯度可以在计算出高幅度、低方差的梯度后进行。在实验中,我们证明了该方法能够在保持模型准确性的同时实现非常高的压缩比,并分析了使用计算模型和通信模型的效率,提供了该方法能够实现在许多场景下使用基础设施的证据。
Feb, 2018
通过实验和理论分析,本文表明在深度神经网络的分布式数据并行训练中,面向单个层的压缩比面向整个模型的压缩方式更好,但实验也显示,具体训练模型和压缩率都可能导致实际收敛率的变化。因此,本文建议深度学习框架应支持面向单个层和整个模型的压缩方式。
Nov, 2019
研究表明,用于分布式学习的偏置压缩算子可以显著提高通信效率并达到线性收敛率,其性能优于其无偏压缩器。它们可用于随机梯度下降和分布式随机梯度下降,并且存在许多具有良好理论保证和实际性能的新偏置压缩器可供选择。
Feb, 2020
本文研究比较了两种标准的数据压缩方法:分布式量化SGD和分布式SGD反馈错误的压缩机在非独立同分布数据集的训练效果,结果表明,后者比前者更适合非独立同分布数据,但两种方法都会因为数据分布的不均匀而变慢。文中还提出一种对于强凸问题有效的方法和适用于线性压缩器的更通用的方法。
Sep, 2020
通过使用压缩技术来减少通信成本,我们研究了在压缩向量所需的比特数和压缩误差之间的基本权衡,为最坏情况和平均情况提供了紧密的下界。我们引入了一种高效的压缩算子和一种简单的压缩算子,它们都能达到最低下界,并在实验中取得了很好的效果。
Oct, 2020
本文提出了一种新的、基于压缩梯度差异的分布式学习方法MARINA,并分别从理论和实践层面证明了该方法的优越性,特别是利用了偏梯度估计器和局部参与等特性。
Feb, 2021
为了解决同步数据并行训练中的通信瓶颈,本研究评估了梯度压缩方法的有效性,并将它们的可扩展性与优化后的同步数据并行 SGD 实现进行了比较。分析发现,仅有 6 种情况下,梯度压缩方法提供了速度优势。本研究提出了一种性能模型,用于确定在各种系统设置中梯度压缩的益处,并提出了一些理想的梯度压缩方法的性质列表,以获得有意义的综合优势。
Feb, 2021
在移动环境中,分布式机器学习面临着严重的通信瓶颈问题。梯度压缩已成为解决此问题的有效方法,在带宽有限和流量计费等环境中可以提供显著的好处。然而,在非IID环境中,由于一种适用于所有数据的压缩方法,它们遭遇到严重的性能下降。为具有不同数据分布和数据量的工作节点分配不同的压缩率因此是一个有前景的解决方案。本研究介绍了一种使用非均匀压缩的分布式SGD分析方法,揭示了收敛速率(指实现某个准确度所需的迭代次数)受应用于具有不同数据量的节点的压缩率的影响。因此,我们将相对压缩率分配作为一个$n$个变量卡方非线性优化问题进行建模,并在通信开销有限的约束下进行求解。我们提出了DAGC-R方法,将具有较大数据量的节点分配保守的压缩率。鉴于移动设备的计算能力有限,我们还提出了DAGC-A方法,在非均匀数据分布的场景中具有较低的计算需求,并提高了绝对梯度压缩器的鲁棒性。实验证明,DAGC-A和DAGC-R在处理高度不平衡的数据量分布和受限通信时能够获得更好的性能。
Nov, 2023