- 超球量化:面向联邦学习的通信高效 SGD
本篇研究使用超球量化算法解决联邦学习中的梯度通信效率问题,该算法提供了一种连续的折衷方案,可以在不影响梯度准确性的情况下减少通信成本。
- Qsparse-local-SGD: 带量化、稀疏化和本地计算的分布式 SGD
本研究旨在提出一种具有依赖误差补偿机制的 Qsparse-local-SGD 算法,该算法采用聚合式稀疏化和量化,以及局部计算方法,并且与其他算法相比在解决大规模学习模型中的通信问题上具备潜在的优越性。
- PowerSGD: 分布式优化中的实用低秩梯度压缩
本文研究了梯度压缩方法以缓解数据并行分布式优化中的通信瓶颈,提出了一种基于幂迭代的新型低秩梯度压缩器,在快速压缩梯度、高效聚合压缩梯度并且在测试性能上与随机梯度下降(SGD)相当的情况下实现了持续的加速,该算法是唯一评估的方法,与具有优化的 - ICML随机符号下降方法:新算法和更好的理论
本文介绍了一种基于符号的压缩方法,即 Stochastic Sign Descent with Momentum(SSDM), 用于在分布式环境下解决符号 SGD 方法的收敛问题,同时可以保持 1 位压缩和小批量大小。
- 具有误差反馈的通信高效分布式块动量 SGD
提出了一种基于 Nesterov 的动量的分布式压缩的 SGD 方法,通过两种方式压缩梯度并将梯度分块,每个梯度块都以 1 位格式进行压缩和传输,并实现了近 32 倍的通信降低,实验表明该方法与精度相同的动量 SGD 收敛速度相同,并在分布 - 基于梯度量化和方差约束的随机分布式学习
研究了分布式优化问题,在量化梯度、降低方差的基础上,提出新的缩短收敛时间的方法,实现了对于任意量化梯度的线性收敛,解决了弱凸和非凸问题,并在实验中验证了其效率优于传统方法。
- 基于草图的高效分布式 SGD 算法
本论文提出了一种名为 Sketched SGD 的算法,通过传递梯度草图而不是完整梯度来执行分布式 SGD,与其他梯度压缩方法相比,Sketched SGD 通过减少通信次数将通信成本降低了约 40 倍,同时不影响最终模型性能。
- ICML误差反馈修复 SignSGD 和其他梯度压缩方案
本文研究了基于符号的梯度压缩算法在大规模神经网络训练中的通信瓶颈问题,通过引入误差反馈机制提高了其收敛性和泛化性能,实验结果支持该算法在不额外假设的前提下具有与标准梯度下降算法相同的优越性能。
- 超级神经元:基于 FFT 的梯度稀疏化在深度神经网络的分布式训练中的应用
使用稀疏性和基于范围的浮点表示方法,本文提出了一种新的梯度压缩框架,该框架在不影响准确性和收敛速度的情况下,显著提高了最流行的神经网络在大规模 GPU 集群上的可扩展性。
- 压缩梯度的分布式学习
该论文提出了一种针对大规模机器学习的分布式梯度方法的统一分析框架,通过非渐进界限来推导了几种优化算法的收敛速率和信息交换,并得到了步长的显式表达式,表征了异步度和压缩精度如何影响迭代和通信复杂性保证,数值结果证实了限制信息交换下不同梯度压缩 - ICLR基于方差的梯度压缩用于高效的分布式深度学习
本文提出了一种用于降低分布式深度学习通信开销的方法,通过延迟梯度更新以使得梯度可以在计算出高幅度、低方差的梯度后进行。在实验中,我们证明了该方法能够在保持模型准确性的同时实现非常高的压缩比,并分析了使用计算模型和通信模型的效率,提供了该方法 - AAAIAdaComp:自适应残差梯度压缩用于数据并行分布式训练
本文提出了自适应残差梯度压缩(AdaComp)技术,能够在多个领域、数据集、优化器和网络参数上显著地提高深度学习模型的性能,实现全连接层和循环层的端到端压缩率约 200 倍,卷积层的压缩率约 40 倍。
- MM深度梯度压缩:降低分布式训练的通信带宽
本文提出深度梯度压缩 (DGC),通过动量修正、局部梯度截断、动量因子掩模和预热训练,使得分布式 SGD 中 99.9% 的梯度交换变得不重要,从而大大减少通信带宽需求,有效保持模型准确率,支持在 1Gbps 以太网和移动设备上进行大规模分