AAAIJul, 2018
并行重启 SGD:更快收敛,更少通信 —— 揭秘深度学习中模型平均的原理
Parallel Restarted SGD with Faster Convergence and Less Communication: Demystifying Why Model Averaging Works for Deep Learning
Hao Yu, Sen Yang, Shenghuo Zhu
TL;DR本篇论文探讨了为何模型平均可以降低神经网络分布式训练中的通信开销,并阐述该方法与并行小批量随机梯度下降(SGD)在训练时间上的相似性。