rTop-k:分布式SGD的统计估计方法
通过减少信息交换的通信成本,提出了使用凸优化公式的随机梯度编码方法,该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题,同时经过正则化逻辑回归,支持向量机和卷积神经网络的实验验证了该方法的有效性。
Oct, 2017
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法,证明了在一定的解析条件下,采用基于梯度幅值优先选择梯度部分更新方法具有收敛性,并验证了该方法的有效性并探究了其收敛条件。
Sep, 2018
该论文提出一种基于全局 Top-k 稀疏化技术的分布式同步随机梯度下降 (S-SGD) 算法,该算法通过减少通信带宽来提高训练深度神经网络的效率,通过大量实验,验证了算法的收敛性能和泛化性能,实验结果表明该算法的可扩展性比 S-SGD 更高。
Jan, 2019
本文提出了一种新的分布式优化方法LAGS-SGD,它结合了S-SGD与一种新的LAGS方案,通过采用分层自适应梯度稀疏来减少通信负担,实现了通信和计算之间的重叠,同时保证了收敛性能。在16-GPU群集上的实验结果表明,LAGS-SGD在不失精度的情况下优于原始的S-SGD和现有的稀疏S-SGD。
Nov, 2019
本文研究了基于Top-k稀疏化技术的分布式随机梯度下降算法在训练深度学习模型中的通信负载问题,通过实验和理论推导,提出了更为准确的Top-k算子收敛性分析方法,并开发了一种GPU上高效的Top-k选取算法,提高了TopK-SGD的计算效率。
Nov, 2019
本论文提出了一种Variance Reduced Local SGD算法,通过消除工作人员之间的梯度方差依赖性,实现了更低的通信复杂性,以实现线性迭代加速,并在三个机器学习任务上得到了卓越的性能表现。
Dec, 2019
该论文研究了使用Top-k SGD方法减少通信流量来提高深度学习模型在多GPU下的训练性能,但是因为在GPU上进行梯度排序效率低下,所以该方法具有局限性,提出未来工作的高性能梯度稀疏化方法。
Sep, 2022
本研究解决了分布式梯度下降中Top-$k$稀疏化方法的误差积累问题,这种方法可能会影响收敛性。提出的正则化Top-$k$(RegTop-$k$)算法通过最大后验估计确定贝叶斯最优稀疏化掩码,有效控制学习率的缩放。实验结果表明,在$0.1\%$的稀疏化率下,RegTop-$k$在ResNet-18和CIFAR-10数据集上的准确率比标准Top-$k$高出约$8\%$,显示出显著的提升潜力。
Sep, 2024