Nov, 2019

分布式深度学习中Top-k稀疏化的理解

TL;DR本文研究了基于Top-k稀疏化技术的分布式随机梯度下降算法在训练深度学习模型中的通信负载问题,通过实验和理论推导,提出了更为准确的Top-k算子收敛性分析方法,并开发了一种GPU上高效的Top-k选取算法,提高了TopK-SGD的计算效率。