该研究论文旨在提出一种新的算法-无鞍牛顿法,通过对梯度下降和拟牛顿方法的比较,研究表明高维空间中的鞍点可能是局部最小值的主要原因,而不是通常认为的局部最小值过多。该算法能够快速避免高维鞍点,特别是在深度神经网络的训练中具有优势。
May, 2014
本研究针对非凸函数的优化问题,通过分析其严格鞍点特性,提出了一种可有效优化的解法——随机梯度下降法,并给出了其多项式迭代次数的局部最小值收敛保证以及应用于正交张量分解问题上的全局收敛保证。
Mar, 2015
本文提出了一种使用高阶导数的算法,能够逃离高维复杂的鞍点结构,并保证能够收敛到三阶局部最优解,是现有技术的两倍,同时也证明了进一步寻找四阶局部最优解是NP-hard的。
Feb, 2016
通过选择合适的参数和注入噪音,我们分析了Normalized Gradient Descent(NGD)这个非凸优化启发式方法,表明此方法能够逃避鞍点,并且证明了NGD收敛到局部最小值,而且NGD的收敛速度比Ge等人 2015年提出的最快的一阶算法更快,我们将这个方法应用到在线张量分解问题上,并证明了在这个问题中,鞍点逃逸导致收敛到全局最小值。
Nov, 2016
本文研究表明惯性梯度下降法可以在较短的迭代次数内收敛于二阶稳定点,收敛速率与梯度下降到一阶稳定点的收敛速率匹配,当所有鞍点都是非退化的时,所有的二阶稳定点都是局部最小值,该结果表明惯性梯度下降法几乎可以在无成本的情况下脱离鞍点,并可直接应用于许多机器学习应用中,包括深度学习。
Mar, 2017
本文介绍了一种通用框架,该框架在最小化Hessian基础计算的同时,能够收敛到二阶临界点,侧重于解决非凸优化中的关键问题:鞍点。经实证,该策略具有较好的实际性能。
Sep, 2017
本文研究了基于梯度下降的优化方法在处理鞍点问题时的局限性,提出一种新的优化方法——利用曲率信息跳出非最优静态点,证明了采用曲率信息的梯度方法和Adagrad等方法都能够跳出非最优静态点,并在常见鞍点问题上提供了实证结果。
May, 2018
该论文研究了深度学习中广泛使用的自适应方法,如Adam和RMSProp,将它们视为预处理的随机梯度下降算法,并提出了新的观点,旨在精确地描述它们在非凸情况下的行为和性能,并证明了它们比传统的SGD算法更快地从鞍点逃脱,并且在总体上更快地收敛到二阶稳定点。
Jan, 2019
本文探讨了超参数初始化趋近于零时,激活集与损失函数极小值之间的关系,证明了激活集的约束下,梯度流跳跃到另一个鞍点的动态可作为增量学习的过程,并采用类似于Lasso路径计算的Homotopy算法解决了实现上的难点。
Apr, 2023
提出了一个既能解决大规模的Hessian矩阵问题,又能优化非凸性的优化算法,采用了一个无限级数截断的方法,并在多种情境下进行了验证,包括在CIFAR-10上训练的ResNet-18模型。
Oct, 2023