梯度下降收敛于最小值点

Feb, 2016

Gradient Descent Converges to Minimizers

Jason D. Lee, Max Simchowitz, Michael I. Jordan, Benjamin Recht

TL;DR本文证明了随机初始化的梯度下降会收敛到局部最小值，证明使用了动力系统理论的 Stable Manifold Theorem。

Abstract

We show that gradient descent converges to a local minimizer, almost surely with random initialization. This is proved by applying the Sta

gradient descent local minimizer random initialization stable manifold theorem dynamical systems theory

发现论文，激发创造

黎曼流形上的随机梯度下降

本文介绍了一种扩展随机梯度下降算法来优化在 Riemannian 流形上定义的代价函数的方法，并通过四个例子展示了其潜在的应用，其中包括派生和数字测试的一种新型的协方差矩阵的聚集算法。

Nov, 2011

随机梯度下降法在非凸目标函数中的收敛速率

本文研究了随机梯度下降法在非全局凸函数的情况下，实现局部收敛和收敛速率的估计，尤其适用于机器学习中的简单目标函数。

Apr, 2019

梯度下降学习线性动态系统

我们证明了随机梯度下降算法可以高效地收敛于未知线性时不变动态系统的极大似然目标函数的全局极值。虽然该目标函数是非凸的，但我们在强但自然的假设下提供了多项式运行时间和样本复杂度界限。尽管线性系统识别已经研究了许多年，但据我们所知，这是我们所考虑的问题的第一个多项式保证。

Sep, 2016

在黎曼流形上的均值随机梯度下降

本文提出了一个基于 Riemann 流形的梯度下降法以及一个几何性质框架，并探讨了如何将慢速收敛的结果转化为快速收敛结果。此外，我们将该框架应用于几何上强凸和欧几里得非凸问题，以及流式 $k$-PCA 问题，并展示了如何加速随机幂法的优化率。

Feb, 2018

梯度下降仅收敛到极小值点：非孤立临界点和不变区域

研究非凸二次可微成本函数的梯度下降问题，在一定的限制下得出收敛到鞍点的初始条件的测度为零的结论。此外，该结果扩展到前向不变凸子空间，并提供了可允许步长的上限。

May, 2016

过度参数化的非线性学习：梯度下降是否走过了最短路径？

该论文讨论在数据过度参数化时，第一阶段优化方案（如随机梯度下降）的性质。作者发现，当损失函数在初始点的最小邻域内具有某些属性时，迭代会以几何速率收敛于全局最优解，会以接近直接的路线从初始点到达全局最优解，其中，通过引入一个新的潜力函数来作为证明技术的一部分。对于随机梯度下降（SGD），作者开发了新的鞅技巧，以保证 SGD 绝不会离开初始化的小邻域。

Dec, 2018

极小 - 极大算法在黎曼流形上收敛于可微平衡点

通过普遍基于谱分析的方法，对 Riemann 流形上的零和可微博弈问题推广了可微 Steckelberg 平衡和可微 Nash 平衡，并给出了算法局部收敛的充分条件。这些算法通过引入随机梯度来扩展，并应用于训练 Wasserstein GAN 模型，从而提高 GAN 模型的性能。

May, 2024

自适应梯度下降（无需下降）

本文提供一个简明的证明，只需遵循两个规则即可自动化梯度下降：1）不要过快增加步长，2）不要超出局部曲率；通过遵循这些规则，可以得到对局部几何条件自适应的方法，收敛保证只取决于解的附近的平滑度，因此收敛于任何凸问题中，包括可以最小化任意连续两次可微的凸函数的问题，本文将探讨该方法在一系列凸和非凸问题上的性能。

Oct, 2019

比梯度下降法更快地找到局部极小值

本文介绍了一种非凸二阶优化算法，其时间复杂度与样本维度和训练样本数量呈线性关系，在训练神经网络和其他非凸目标的机器学习问题上具有广泛应用，并可以保证返回近似局部最小值。

Nov, 2016

黎曼随机优化方法避免严格鞍点

对于现代机器学习应用中的最小化问题，研究了基于提纯的方法族，证明了在渐进条件下，从任意初始状态出发，研究中的策略几乎总能避免严格鞍点 / 子流形，从而为在流形上使用梯度方法提供了重要的可靠性验证。

Nov, 2023