NIPSNov, 2016

分布式深度学习的扩展方法

TL;DR该研究比较了同步和异步随机梯度下降的收敛性,针对 ImageNet 分类问题的训练,在 32 个节点以下异步 SGD 包括弹性平均和 gossiping 能更快收敛,而同步 SGD 在 100 个节点以下能更好地扩展。