重新思考将梯度稀疏化作为总误差最小化问题
对于分布式算法,通过对随机梯度下降(SGD)的压缩(如 top-k 或 random-k)等技术进行分析,发现它在进行误差补偿的情况下,能够实现与传统 SGD 相同的收敛速度,降低数据通信量达到更好的分布式可扩展性。
Sep, 2018
本文研究了基于 Top-k 稀疏化技术的分布式随机梯度下降算法在训练深度学习模型中的通信负载问题,通过实验和理论推导,提出了更为准确的 Top-k 算子收敛性分析方法,并开发了一种 GPU 上高效的 Top-k 选取算法,提高了 TopK-SGD 的计算效率。
Nov, 2019
该论文研究了使用 Top-k SGD 方法减少通信流量来提高深度学习模型在多 GPU 下的训练性能,但是因为在 GPU 上进行梯度排序效率低下,所以该方法具有局限性,提出未来工作的高性能梯度稀疏化方法。
Sep, 2022
本文研究了基于梯度稀疏化的分布式深度神经网络的训练方法,证明了在一定的解析条件下,采用基于梯度幅值优先选择梯度部分更新方法具有收敛性,并验证了该方法的有效性并探究了其收敛条件。
Sep, 2018
本文提出了 O$k$-Top$k$ 的方案,将新型稀疏同时求和算法与去中心化并行随机梯度下降(SGD)optimizer 进行集成,达到与总结所有技术相当的模型精度,与优化密集型和最先进的稀疏同时求和相比,O$k$-Top$k$ 更具扩展性并显着提高了训练吞吐量。
Jan, 2022
通过减少信息交换的通信成本,提出了使用凸优化公式的随机梯度编码方法,该方法可以在多台机器上有效地解决大规模机器学习中的瓶颈问题,同时经过正则化逻辑回归,支持向量机和卷积神经网络的实验验证了该方法的有效性。
Oct, 2017
使用稀疏性和基于范围的浮点表示方法,本文提出了一种新的梯度压缩框架,该框架在不影响准确性和收敛速度的情况下,显著提高了最流行的神经网络在大规模 GPU 集群上的可扩展性。
Nov, 2018
该论文提出一种基于全局 Top-k 稀疏化技术的分布式同步随机梯度下降 (S-SGD) 算法,该算法通过减少通信带宽来提高训练深度神经网络的效率,通过大量实验,验证了算法的收敛性能和泛化性能,实验结果表明该算法的可扩展性比 S-SGD 更高。
Jan, 2019
MiCRO 是一种新颖的梯度稀疏化方法,通过解决影响分布式深度神经网络训练可扩展性和加速度的问题,实现了接近零成本的梯度稀疏化,并具有出色的收敛速度。
Oct, 2023