局部鞍点优化:一种曲率利用方法
该研究论文旨在提出一种新的算法-无鞍牛顿法,通过对梯度下降和拟牛顿方法的比较,研究表明高维空间中的鞍点可能是局部最小值的主要原因,而不是通常认为的局部最小值过多。该算法能够快速避免高维鞍点,特别是在深度神经网络的训练中具有优势。
May, 2014
本文根据统计物理学、随机矩阵理论、神经网络理论和实证证据,证明高维问题中鞍点而非局部极小值点是造成误差函数最小值难以求解的主要原因,因此,提出了一种新的二阶优化方法——无鞍牛顿法,用以快速逃脱高维鞍点并优化深度或递归神经网络。
Jun, 2014
本文提出了一种使用高阶导数的算法,能够逃离高维复杂的鞍点结构,并保证能够收敛到三阶局部最优解,是现有技术的两倍,同时也证明了进一步寻找四阶局部最优解是NP-hard的。
Feb, 2016
本文研究表明惯性梯度下降法可以在较短的迭代次数内收敛于二阶稳定点,收敛速率与梯度下降到一阶稳定点的收敛速率匹配,当所有鞍点都是非退化的时,所有的二阶稳定点都是局部最小值,该结果表明惯性梯度下降法几乎可以在无成本的情况下脱离鞍点,并可直接应用于许多机器学习应用中,包括深度学习。
Mar, 2017
本研究研究了非凸优化中的鞍点问题,提出了一个通用的框架,该框架可在多项式时间内以失配系数 $\rho<1$ 的速度收敛到问题的二阶稳定点。此外,还将研究结果扩展到了随机情形下,以更好地适应实际问题。
Sep, 2018
本文研究使用Extra-gradient和Optimistic Gradient Descent Ascent算法解决鞍点问题,并表明这两种算法作为经典的近端点法的逼近。通过这个观点,我们开发了一种新的框架来分析EG和OGDA在双线性和强凸-强凹情况下的效果。此外,我们使用近端点逼近解释将结果推广到OGDA适用于广泛的参数范围。
Jan, 2019
本文将通过对随机梯度下降进行深入分析,证明当目标函数满足梯度Lipschitz、Hessian-Lipschitz和发散噪声假设时,SGD能够在O(ε^ -3.5)次随机梯度计算中逃离鞍点并找到(ε,O(ε^ 0.5))-近似二阶稳定点,从而推翻了SGD至少需要O(ε^ - 4)的经典信念。此类SGD速率与大多数采用其他技术的加速非凸随机优化算法的速率相匹配,如Nesterov的动量加速,负曲率搜索,以及二次和三次正则化技巧。本文的新型分析为非凸SGD提供了新的见解,并可潜在地推广到广泛的随机优化算法类。
Feb, 2019
本文研究了非凸优化中的无导数算法,利用有限差分器进行梯度逼近,最终提出了一种使用嘈杂的零阶方法来避免鞍点的算法,并在收敛速度上达到了与精确梯度接近的性能。
Oct, 2019
本文研究了加速梯度方法在光滑非凸函数上的行为,提出了一类Nesterov型加速方法,并通过显式和隐式分析证明了其能够避免滑点并收敛于局部最小值。
Jul, 2023