BriefGPT.xyz
Jan, 2019
自适应梯度方法逃离鞍点
Escaping Saddle Points with Adaptive Gradient Methods
HTML
PDF
Matthew Staib, Sashank J. Reddi, Satyen Kale, Sanjiv Kumar, Suvrit Sra
TL;DR
该论文研究了深度学习中广泛使用的自适应方法,如Adam和RMSProp,将它们视为预处理的随机梯度下降算法,并提出了新的观点,旨在精确地描述它们在非凸情况下的行为和性能,并证明了它们比传统的SGD算法更快地从鞍点逃脱,并且在总体上更快地收敛到二阶稳定点。
Abstract
adaptive methods
such as
adam
and
rmsprop
are widely used in
deep learn
→