Jan, 2019
一种带有全局 Top-k 稀疏化的分布式同步 SGD 算法,用于低带宽网络
A Distributed Synchronous SGD Algorithm with Global Top-$k$
Sparsification for Low Bandwidth Networks
TL;DR该论文提出一种基于全局 Top-k 稀疏化技术的分布式同步随机梯度下降 (S-SGD) 算法,该算法通过减少通信带宽来提高训练深度神经网络的效率,通过大量实验,验证了算法的收敛性能和泛化性能,实验结果表明该算法的可扩展性比 S-SGD 更高。