比梯度下降法更快地找到局部极小值

Nov, 2016

比梯度下降法更快地找到局部极小值

Finding Approximate Local Minima Faster than Gradient Descent

Naman Agarwal, Zeyuan Allen-Zhu, Brian Bullins, Elad Hazan, Tengyu Ma

TL;DR本文介绍了一种非凸二阶优化算法，其时间复杂度与样本维度和训练样本数量呈线性关系，在训练神经网络和其他非凸目标的机器学习问题上具有广泛应用，并可以保证返回近似局部最小值。

Abstract

We design a non-convex second-order optimization algorithm that is guaranteed to return an approximate local minimum in time which scales linearly in the underlying dimension and the number of training examples.

non-convex second-order optimization local minimum time complexity neural network machine learning

发现论文，激发创造

Natasha 2：比 SGD 更快的非凸优化

本文设计了一种随机算法，使用 O (ε^{-3.25}) 次反向传播来训练任何平滑神经网络到 ε- 近似局部极小值，并能够在不需要凸梯度下降的情况下，以速率 O (ε^{-3.25}) 找到任何平滑非凸函数的 ε- 近似局部极小值。

Aug, 2017

自适应梯度下降（无需下降）

本文提供一个简明的证明，只需遵循两个规则即可自动化梯度下降：1）不要过快增加步长，2）不要超出局部曲率；通过遵循这些规则，可以得到对局部几何条件自适应的方法，收敛保证只取决于解的附近的平滑度，因此收敛于任何凸问题中，包括可以最小化任意连续两次可微的凸函数的问题，本文将探讨该方法在一系列凸和非凸问题上的性能。

Oct, 2019

梯度下降法在实用规模的可推广深度神经网络中寻找全局最小值

我们在本文中理论上证明了，在实践中经常遇到的大小的非线性深度神经网络的所有层的非凸优化中，梯度下降法可以找到全局最小值。我们的理论仅需要实际过度参数化的程度，而不需要以前的理论。此外，我们证明了网络的大小呈线性增长是最优的速率，除非是对数因子。此外，训练保证的深度神经网络显示出在自然数据集中很好地泛化到未见过的测试样本，但不包括随机数据集。

Aug, 2019

通过非凸梯度下降快速且极小化误差地估计低秩矩阵

本文研究了从噪声测量中估计低秩矩阵的问题，并提出一种修改的非凸梯度下降方法，既能解决慢收敛的问题，又能保持极小值最优性，通过医学成像应用的实验，我们观察到，与先前的方法相比，重建误差显着减小。

May, 2023

如何逃离尖锐的极小值

探讨了如何高效地找到近似的优化算法的平坦极值，提出了基于梯度和随机扰动的算法，在训练数据成本函数的情况下，提出了更快的算法。

May, 2023

Neon2: 通过一阶预言找到本地最小值

本文提出了一种针对非凸优化的简化方法，通过该方法可将寻找稳态的算法转变为寻找局部极小值的算法，并将海森矩阵向量积计算替换为仅使用梯度计算，此方法在随机和确定性设置下均可应用且不会影响算法的性能表现。将此方法应用于现有算法，可以将 Natasha2 转变为一阶方法而不影响性能，亦可以将 SGD，GD，SCSG 和 SVRG 转换为寻找近似局部极小值的算法，表现优于已知的一些最佳结果。

Nov, 2017

过度参数化的非线性学习：梯度下降是否走过了最短路径？

该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Dec, 2018

有约束极小极大优化的复杂性

本文通过分析优化问题的计算复杂性，阐明了一系列非凸非凹目标函数的约束极值优化问题存在的困难，同时证明了该问题在 Nemirovsky-Yudin 模型中的难度，这与最小化问题在同样设置下可以使用 Projected Gradient Descent 进行近似局部最小值的行为形成了对比。

Sep, 2020

光滑非凸优化的二阶线搜索算法复杂度分析

本文介绍了一种基于线搜索的方法来发现平滑函数的不受限制的局部最小值，该方法使用迭代方法来计算搜索方向，收敛速度优秀。此外，还研究了使用共轭梯度和 Lanczos 方法进行搜索向量的近似计算，并得到了这些实用方法的修正收敛性和复杂性结果。

Jun, 2017

随机梯度下降法在非凸目标函数中的收敛速率

本文研究了随机梯度下降法在非全局凸函数的情况下，实现局部收敛和收敛速率的估计，尤其适用于机器学习中的简单目标函数。

Apr, 2019