使用压缩迭代的梯度下降
本文提出了基本而自然的假设,以便分析具有压缩迭代功能的迭代优化方法。我们开发了标准和方差减少的方法,并建立了通信复杂性界限。我们的算法是第一个具有压缩迭代的分布式方法,也是第一个具有压缩迭代的固定点方法。
Dec, 2019
本文提出了一种使用稀疏诱导分布对数据进行压缩的算法(SIDCo),可以在降低模型质量和额外计算量的情况下,提高深度神经网络的分布式训练效率。在基准测试中,该算法相对于无压缩基线、Topk 和 DGC 压缩器,可以将训练时间提高最多 41.7%,7.6%和 1.9%。
Jan, 2021
本文提出了第一种加速压缩梯度下降方法 (ACGD),并在实验中证实了在分布式学习问题中,ACGD 具有实际优越性,并提出了分布式 ACGD 的变体。
Feb, 2020
在移动环境中,分布式机器学习面临着严重的通信瓶颈问题。梯度压缩已成为解决此问题的有效方法,在带宽有限和流量计费等环境中可以提供显著的好处。然而,在非 IID 环境中,由于一种适用于所有数据的压缩方法,它们遭遇到严重的性能下降。为具有不同数据分布和数据量的工作节点分配不同的压缩率因此是一个有前景的解决方案。本研究介绍了一种使用非均匀压缩的分布式 SGD 分析方法,揭示了收敛速率(指实现某个准确度所需的迭代次数)受应用于具有不同数据量的节点的压缩率的影响。因此,我们将相对压缩率分配作为一个 $n$ 个变量卡方非线性优化问题进行建模,并在通信开销有限的约束下进行求解。我们提出了 DAGC-R 方法,将具有较大数据量的节点分配保守的压缩率。鉴于移动设备的计算能力有限,我们还提出了 DAGC-A 方法,在非均匀数据分布的场景中具有较低的计算需求,并提高了绝对梯度压缩器的鲁棒性。实验证明,DAGC-A 和 DAGC-R 在处理高度不平衡的数据量分布和受限通信时能够获得更好的性能。
Nov, 2023
本文提出深度梯度压缩 (DGC),通过动量修正、局部梯度截断、动量因子掩模和预热训练,使得分布式 SGD 中 99.9% 的梯度交换变得不重要,从而大大减少通信带宽需求,有效保持模型准确率,支持在 1Gbps 以太网和移动设备上进行大规模分布式训练。
Dec, 2017
我们提出了一种在参数服务器框架中实现梯度压缩的分布式随机梯度下降(SGD)的新算法。我们的梯度压缩技术名为压平一位随机梯度下降(FO-SGD),它依赖于两个简单的算法思想:(i)利用抖动技术的一位量化过程,和(ii)在量化之前使用随机快速 Walsh-Hadamard 变换来压平随机梯度。因此,在该方案中,真实梯度的近似是有偏的,但它避免了常见的算法问题,如在一位压缩制度下方差激增、在梯度稀疏情况下性能恶化和对随机梯度分布的限制性假设。实际上,我们证明了在温和条件下类似于 SGD 的收敛性保证。该压缩技术可在工作机 - 服务器通信的双向上使用,因此支持具有完整通信压缩的分布式优化。
May, 2024
该论文提出了一种针对大规模机器学习的分布式梯度方法的统一分析框架,通过非渐进界限来推导了几种优化算法的收敛速率和信息交换,并得到了步长的显式表达式,表征了异步度和压缩精度如何影响迭代和通信复杂性保证,数值结果证实了限制信息交换下不同梯度压缩算法的收敛性能,以及快速收敛确实是可能的。
Jun, 2018
通过双向压缩和精心设计的补偿方法,本文提出了一种名为 LIEC-SGD 的优化算法,旨在减少分布式学习中沉重的通信开销,并在理论和实验上证明该算法在收敛速度和通信成本上优于现有方法。
Feb, 2024
本文介绍了一种新的梯度编码(GC)方案,结合多消息通信(MMC)和聚类,以减少因服务器慢导致的迭代时间延长问题,其能有效提高平均完成时间并降低通信负荷。
Mar, 2019
本文提出了一种统一的分析分布式 SGD 各种变体的方法,涵盖了不同的量化 SGD、误差补偿 SGD 和延迟更新 SGD 变体,并通过一个定理推导了其所有方法的复杂度结果。在此基础上,我们开发了 16 种新的方法,其中包括第一种基于误差反馈和梯度差分量化的 EC-SGD-DIANA 方法和第一种具有误差反馈和方差缩减的分布式随机方法 EC-LSVRG-DIANA。
Oct, 2020