Jan, 2019

自适应梯度方法逃离鞍点

TL;DR该论文研究了深度学习中广泛使用的自适应方法,如 Adam 和 RMSProp,将它们视为预处理的随机梯度下降算法,并提出了新的观点,旨在精确地描述它们在非凸情况下的行为和性能,并证明了它们比传统的 SGD 算法更快地从鞍点逃脱,并且在总体上更快地收敛到二阶稳定点。