May, 2019

分布式 SGD 中的全局动量压缩

TL;DR提出了一种新的名为全局动量压缩的方法,其利用稀疏通信和记忆梯度与动量随机梯度下降相结合,能够在分布式机器学习任务中显著减少通信成本,同时证明了该方法在凸问题和非凸问题中的收敛速率。