自适应梯度方法逃离鞍点
该研究论文旨在提出一种新的算法-无鞍牛顿法,通过对梯度下降和拟牛顿方法的比较,研究表明高维空间中的鞍点可能是局部最小值的主要原因,而不是通常认为的局部最小值过多。该算法能够快速避免高维鞍点,特别是在深度神经网络的训练中具有优势。
May, 2014
本文根据统计物理学、随机矩阵理论、神经网络理论和实证证据,证明高维问题中鞍点而非局部极小值点是造成误差函数最小值难以求解的主要原因,因此,提出了一种新的二阶优化方法——无鞍牛顿法,用以快速逃脱高维鞍点并优化深度或递归神经网络。
Jun, 2014
该论文提出了一种基于 equilibration preconditioner 的新型自适应学习率方法:ESGD,与 RMSProp 相比收敛速度更快,在非凸问题上表现更好。
Feb, 2015
本研究针对非凸函数的优化问题,通过分析其严格鞍点特性,提出了一种可有效优化的解法——随机梯度下降法,并给出了其多项式迭代次数的局部最小值收敛保证以及应用于正交张量分解问题上的全局收敛保证。
Mar, 2015
本文提出了一种新的方法,通过估计一个预条件器来加速随机梯度下降算法的收敛速度,适用于凸性和非凸性优化,具有稳定梯度降噪的效果,并且经过了大规模问题的有效预条件估计验证,可以在无需调整的情况下,高效解决深度神经网络等复杂问题
Dec, 2015
本文研究表明惯性梯度下降法可以在较短的迭代次数内收敛于二阶稳定点,收敛速率与梯度下降到一阶稳定点的收敛速率匹配,当所有鞍点都是非退化的时,所有的二阶稳定点都是局部最小值,该结果表明惯性梯度下降法几乎可以在无成本的情况下脱离鞍点,并可直接应用于许多机器学习应用中,包括深度学习。
Mar, 2017
本文研究了在某些非凸机器学习模型中,随机梯度沿负曲率方向的方差,并展示了这些方向上的随机梯度表现出强烈的分量;此外,本文提出了一种新的假设,根据这个假设,注入显式同方差噪声的普通随机梯度下降可以成功地替代梯度下降逃脱鞍点;最后,本文提出了基于相同假设的简单SGD步骤的第一个收敛率,此收敛率独立于问题的维度。
Mar, 2018
本文将通过对随机梯度下降进行深入分析,证明当目标函数满足梯度Lipschitz、Hessian-Lipschitz和发散噪声假设时,SGD能够在O(ε^ -3.5)次随机梯度计算中逃离鞍点并找到(ε,O(ε^ 0.5))-近似二阶稳定点,从而推翻了SGD至少需要O(ε^ - 4)的经典信念。此类SGD速率与大多数采用其他技术的加速非凸随机优化算法的速率相匹配,如Nesterov的动量加速,负曲率搜索,以及二次和三次正则化技巧。本文的新型分析为非凸SGD提供了新的见解,并可潜在地推广到广泛的随机优化算法类。
Feb, 2019
本研究利用自适应参数预处理噪声的方法,将Fisher Scoring等高阶曲率信息引入Stochastic Gradient Langevin Dynamics中,使其能够有效地跳出深度神经网络中曲率异常的波动区域,与Adam、AdaGrad等一阶自适应方法的收敛速度相当,并在测试集上实现了与SGD同等的泛化性能。
Jun, 2019
本文揭示了关于Adam算法等自适应梯度方法在深度学习中的训练动态的知识匮乏。研究结果发现,在Full-batch和足够大的Batch设置中,Hessian预处理的最大特征值通常会达到某个数值,即梯度下降算法的稳定阈值。此外,即使是自适应方法在稳定边缘的训练中,其行为也不同于非自适应方法,因为它们可以不断进入高曲率区域,同时调整预处理器来进行补偿。
Jul, 2022