关键词momentum stochastic gradient descent
搜索结果 - 2
- 关于带有噪声的动量随机梯度下降法在机器学习中的收敛速率
本文研究了非凸优化中动量随机梯度下降 (MSGD) 算法的连续性版本,并证明了在目标函数满足 Lipschitz 连续性和 Polyak-Lojasiewicz 不等式的条件下,MSGD 算法的目标函数极限收敛指数级收敛,同时在给定摩擦参数 - 非凸优化中动量 SGD 的扩散近似理论
本文通过对非凸优化问题的扩散逼近,分析了 Momentum 随机梯度下降算法的算法行为,发现该算法对于强鞍点的逃逸具有帮助,但在优化器的周围区域内妨碍了收敛(未进行步长退火或动量退火),本文的理论发现部分验证了 MSGD 在训练深度神经网络