Nov, 2017

加速梯度下降比梯度下降更快地逃离鞍点

TL;DR本文针对优化算法问题,研究了一种AGD变体,通过使用一个启发式的Hamiltonian函数以及一个新的框架improve or localize,证明了其找到hessian-free的二阶稳定点的速度比GD更快,证明了其具有更好的收敛速度特性,加深了人们对加速算法和非凸优化的理解。