重新思考将梯度稀疏化作为总误差最小化问题
通过减少信息交换的通信成本,提出了使用凸优化公式的随机梯度编码方法,该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题,同时经过正则化逻辑回归,支持向量机和卷积神经网络的实验验证了该方法的有效性。
Oct, 2017
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法,证明了在一定的解析条件下,采用基于梯度幅值优先选择梯度部分更新方法具有收敛性,并验证了该方法的有效性并探究了其收敛条件。
Sep, 2018
该论文提出一种基于全局 Top-k 稀疏化技术的分布式同步随机梯度下降 (S-SGD) 算法,该算法通过减少通信带宽来提高训练深度神经网络的效率,通过大量实验,验证了算法的收敛性能和泛化性能,实验结果表明该算法的可扩展性比 S-SGD 更高。
Jan, 2019
本文研究了基于Top-k稀疏化技术的分布式随机梯度下降算法在训练深度学习模型中的通信负载问题,通过实验和理论推导,提出了更为准确的Top-k算子收敛性分析方法,并开发了一种GPU上高效的Top-k选取算法,提高了TopK-SGD的计算效率。
Nov, 2019
本文提出了O$k$-Top$k$的方案,将新型稀疏同时求和算法与去中心化并行随机梯度下降(SGD)optimizer进行集成,达到与总结所有技术相当的模型精度,与优化密集型和最先进的稀疏同时求和相比,O$k$-Top$k$更具扩展性并显着提高了训练吞吐量。
Jan, 2022
该论文研究了使用Top-k SGD方法减少通信流量来提高深度学习模型在多GPU下的训练性能,但是因为在GPU上进行梯度排序效率低下,所以该方法具有局限性,提出未来工作的高性能梯度稀疏化方法。
Sep, 2022
MiCRO是一种新颖的梯度稀疏化方法,通过解决影响分布式深度神经网络训练可扩展性和加速度的问题,实现了接近零成本的梯度稀疏化,并具有出色的收敛速度。
Oct, 2023
本研究解决了分布式梯度下降中Top-$k$稀疏化方法的误差积累问题,这种方法可能会影响收敛性。提出的正则化Top-$k$(RegTop-$k$)算法通过最大后验估计确定贝叶斯最优稀疏化掩码,有效控制学习率的缩放。实验结果表明,在$0.1\%$的稀疏化率下,RegTop-$k$在ResNet-18和CIFAR-10数据集上的准确率比标准Top-$k$高出约$8\%$,显示出显著的提升潜力。
Sep, 2024