Nov, 2019
分布式深度学习中的层自适应梯度稀疏化及收敛性保证
Layer-wise Adaptive Gradient Sparsification for Distributed Deep
Learning with Convergence Guarantees
TL;DR本文提出了一种新的分布式优化方法LAGS-SGD,它结合了S-SGD与一种新的LAGS方案,通过采用分层自适应梯度稀疏来减少通信负担,实现了通信和计算之间的重叠,同时保证了收敛性能。在16-GPU群集上的实验结果表明,LAGS-SGD在不失精度的情况下优于原始的S-SGD和现有的稀疏S-SGD。