Jan, 2019
自适应梯度方法逃离鞍点
Escaping Saddle Points with Adaptive Gradient Methods
Matthew Staib, Sashank J. Reddi, Satyen Kale, Sanjiv Kumar, Suvrit Sra
TL;DR该论文研究了深度学习中广泛使用的自适应方法,如 Adam 和 RMSProp,将它们视为预处理的随机梯度下降算法,并提出了新的观点,旨在精确地描述它们在非凸情况下的行为和性能,并证明了它们比传统的 SGD 算法更快地从鞍点逃脱,并且在总体上更快地收敛到二阶稳定点。