对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法,证明了在一定的解析条件下,采用基于梯度幅值优先选择梯度部分更新方法具有收敛性,并验证了该方法的有效性并探究了其收敛条件。
该论文提出一种基于全局 Top-k 稀疏化技术的分布式同步随机梯度下降 (S-SGD) 算法,该算法通过减少通信带宽来提高训练深度神经网络的效率,通过大量实验,验证了算法的收敛性能和泛化性能,实验结果表明该算法的可扩展性比 S-SGD 更高。
Jan, 2019
本文提出了一种新的分布式优化方法LAGS-SGD,它结合了S-SGD与一种新的LAGS方案,通过采用分层自适应梯度稀疏来减少通信负担,实现了通信和计算之间的重叠,同时保证了收敛性能。在16-GPU群集上的实验结果表明,LAGS-SGD在不失精度的情况下优于原始的S-SGD和现有的稀疏S-SGD。
Nov, 2019
本文研究了基于Top-k稀疏化技术的分布式随机梯度下降算法在训练深度学习模型中的通信负载问题,通过实验和理论推导,提出了更为准确的Top-k算子收敛性分析方法,并开发了一种GPU上高效的Top-k选取算法,提高了TopK-SGD的计算效率。
本文提出一种基于统计估计模型的分布式机器学习通信优化方案,将梯度稀疏化技术与随机梯度业务结合,实现了通信效率与模型性能的均衡优化。
May, 2020
通过考虑整个训练过程的通信复杂度模型,使用硬阈值稀疏化进行梯度压缩可以比Top-k稀疏化更加高效地减少通信成本,特别是在大型深度神经网络上。
Aug, 2021
本文提出了O$k$-Top$k$的方案,将新型稀疏同时求和算法与去中心化并行随机梯度下降(SGD)optimizer进行集成,达到与总结所有技术相当的模型精度,与优化密集型和最先进的稀疏同时求和相比,O$k$-Top$k$更具扩展性并显着提高了训练吞吐量。
Jan, 2022
本研究提出了一种名为ACP-SGD的梯度压缩方法,可以加速分布式训练并具有三种甚至更优秀的系统优化技术,与S-SGD相比,优化后的ACP-SGD在减少压缩和通信开支的同时,能够实现相似的模型准确性。
Jun, 2023
本研究解决了分布式梯度下降中Top-$k$稀疏化方法的误差积累问题,这种方法可能会影响收敛性。提出的正则化Top-$k$(RegTop-$k$)算法通过最大后验估计确定贝叶斯最优稀疏化掩码,有效控制学习率的缩放。实验结果表明,在$0.1\%$的稀疏化率下,RegTop-$k$在ResNet-18和CIFAR-10数据集上的准确率比标准Top-$k$高出约$8\%$,显示出显著的提升潜力。
Sep, 2024