Feb, 2018

非凸优化中动量 SGD 的扩散近似理论

TL;DR本文通过对非凸优化问题的扩散逼近,分析了 Momentum 随机梯度下降算法的算法行为,发现该算法对于强鞍点的逃逸具有帮助,但在优化器的周围区域内妨碍了收敛(未进行步长退火或动量退火),本文的理论发现部分验证了 MSGD 在训练深度神经网络中的实证成功。