Jun, 2016

并行 SGD:何时使用平均有帮助?

TL;DR研究了多个工作者独立运行 SGD 并定期平均模型的常见但未被充分理解的做法,探讨了模型平均作为方差减少机制的两种方式,并说明了平均频率对收敛的影响,对于凸目标函数,频繁平均的好处依赖于梯度方差包络,在非凸目标函数中,该好处取决于多个全局最优点的存在。在合成数据和实际数据上进行了多核实验以补充研究结果。