EMNLPApr, 2017

分布式梯度下降的稀疏通讯

TL;DR使用稀疏更新替代密集更新的分布式随机梯度下降法,在保持准确性不变的情况下,能够在 MNIST 数据集中实现最高 49% 的加速和在神经机器翻译任务中实现最高 22% 的加速。