AAAIJul, 2018

并行重启 SGD:更快收敛,更少通信 —— 揭秘深度学习中模型平均的原理

TL;DR本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销,并阐述该方法与并行小批量随机梯度下降(SGD)在训练时间上的相似性。