Feb, 2019
非凸随机梯度下降逃离鞍点的尖锐分析
Sharp Analysis for Nonconvex SGD Escaping from Saddle Points
TL;DR本文将通过对随机梯度下降进行深入分析,证明当目标函数满足梯度Lipschitz、Hessian-Lipschitz和发散噪声假设时,SGD能够在O(ε^ -3.5)次随机梯度计算中逃离鞍点并找到(ε,O(ε^ 0.5))-近似二阶稳定点,从而推翻了SGD至少需要O(ε^ - 4)的经典信念。此类SGD速率与大多数采用其他技术的加速非凸随机优化算法的速率相匹配,如Nesterov的动量加速,负曲率搜索,以及二次和三次正则化技巧。本文的新型分析为非凸SGD提供了新的见解,并可潜在地推广到广泛的随机优化算法类。