Nov, 2017

加速梯度下降比梯度下降更快地逃离鞍点

TL;DR本文针对优化算法问题,研究了一种 AGD 变体,通过使用一个启发式的 Hamiltonian 函数以及一个新的框架 improve or localize,证明了其找到 hessian-free 的二阶稳定点的速度比 GD 更快,证明了其具有更好的收敛速度特性,加深了人们对加速算法和非凸优化的理解。