ICMLNov, 2018

分布式深度学习的随机梯度推动

TL;DR本文研究了 Stochastic Gradient Push 算法,将 PushSum gossip 算法与随机梯度更新相结合,证明 SGP 能以与 SGD 相同的亚线性速率收敛于平稳点,并且所有节点都能达成共识。研究结果在图像分类(ResNet-50,ImageNet)和机器翻译(Transformer,WMT'16 En-De)中进行了经验验证。