应对随机鞍点优化中的无界梯度问题

Feb, 2024

应对随机鞍点优化中的无界梯度问题

Dealing with unbounded gradients in stochastic saddle-point optimization

Gergely Neu, Nneka Okolo

TL;DR研究用于找到凸凹函数鞍点的随机一阶方法的性能。我们提出了一种简单有效的正则化技术，稳定迭代并提供有意义的性能保证，即使域和梯度噪声与迭代的大小成线性关系（可能是无界的）。此外，我们还将算法应用于强化学习中的特定问题，在无偏扩展的平均奖励 MDP 中，即使没有先验知识，也能找到接近最优策略的性能保证。

Abstract

We study the performance of stochastic first-order methods for finding saddle points of convex-concave functions. A notorious challenge faced by such methods is that the gradients can grow arbitrarily large during optimization, which may result in instability and divergence. In this pa

stochastic first-order methods saddle points regularization technique performance guarantees reinforcement learning

发现论文，激发创造

非凸优化中随机梯度下降的二阶保证

本文研究了梯度下降算法在非凸优化问题中的性能保证，发现梯度噪声对逃脱鞍点和到达二阶稳定点的效率起到了关键作用，提出了一个基于均方方法的替代方案来保证梯度噪声的相对方差较小就足以确保逃脱鞍点，而不需要注入其他噪声或采用全局分散噪声假设。

Aug, 2019

机器学习的非凸优化：梯度、随机性和鞍点

本文研究梯度下降和随机梯度下降等算法在机器学习中的应用，分析了这些算法在非凸优化问题中收敛到驻点的情况，提出了变形的算法可以更高效地避免出现维数灾难，从而沟通了理论和实践。

Feb, 2019

非光滑非凸正则化优化的简单随机梯度方法

本研究旨在探讨优化非光滑非凸正则化器下的平滑非凸损失函数的随机梯度方法。我们提出了两种简单的随机梯度算法，对于有限总和和一般随机优化问题，相较于现有技术水平，其具有更优的收敛复杂度。同时，我们在经验风险最小化中比较了两种算法的实际表现。

Jan, 2019

无梯度方法求解鞍点问题

文章介绍了一种面向凸 - 凹鞍点问题的方法，使用梯度有限差分进行随机逼近，在某些条件下可以将所需的 oracle 调用次数降低至原来的 1/（log n）倍

May, 2020

几乎必然受限凸优化

我们提出了一种随机梯度框架，用于解决具有（可能）无限数量的线性包含约束条件的随机复合凸优化问题，而这些约束条件需要几乎确定。我们使用平滑和同伦技术处理约束条件，无需矩阵投影，并且通过数值实验表明，我们的算法实现了最先进的实用性能。

Jan, 2019

如何高效地逃离鞍点

本文研究表明惯性梯度下降法可以在较短的迭代次数内收敛于二阶稳定点，收敛速率与梯度下降到一阶稳定点的收敛速率匹配，当所有鞍点都是非退化的时，所有的二阶稳定点都是局部最小值，该结果表明惯性梯度下降法几乎可以在无成本的情况下脱离鞍点，并可直接应用于许多机器学习应用中，包括深度学习。

Mar, 2017

非凸和非光滑问题随机优化的稳定性和泛化

本文针对非凸非光滑问题提出新的算法稳定性度量方法，同时建立它们与梯度之间的量化关系，并使用采样确定算法导出了随机梯度下降算法和其自适应变种的误差界。

Jun, 2022

训练更快，泛化更好：随机梯度下降的稳定性

本文证明使用随机梯度方法训练的参数模型少迭代次数即可实现消失的泛化误差，提供了新的对于随机梯度方法多周期泛化性能好的解释，对于神经网络的训练也有新的稳定性解释。

Sep, 2015

用随机梯度逃离鞍点

本文研究了在某些非凸机器学习模型中，随机梯度沿负曲率方向的方差，并展示了这些方向上的随机梯度表现出强烈的分量；此外，本文提出了一种新的假设，根据这个假设，注入显式同方差噪声的普通随机梯度下降可以成功地替代梯度下降逃脱鞍点；最后，本文提出了基于相同假设的简单 SGD 步骤的第一个收敛率，此收敛率独立于问题的维度。

Mar, 2018

黎曼随机优化方法避免严格鞍点

对于现代机器学习应用中的最小化问题，研究了基于提纯的方法族，证明了在渐进条件下，从任意初始状态出发，研究中的策略几乎总能避免严格鞍点 / 子流形，从而为在流形上使用梯度方法提供了重要的可靠性验证。

Nov, 2023