一种几何替代 Nesterov 加速梯度下降算法的方法

Jun, 2015

一种几何替代 Nesterov 加速梯度下降算法的方法

A geometric alternative to Nesterov's accelerated gradient descent

Sébastien Bubeck, Yin Tat Lee, Mohit Singh

TL;DR我们提出了一种新的优化方法，通过类似于椭球体法的简单几何解释，实现了超平滑何强凸函数的无约束优化，并在数值实验中证明了其优于 Nesterov 加速梯度下降。

Abstract

We propose a new method for unconstrained optimization of a smooth and strongly convex function, which attains the optimal rate of convergence of

optimization nesterov's accelerated gradient descent ellipsoid method convergence numerical evidence

发现论文，激发创造

具有 Nesterov 加速梯度的随机拟牛顿方法

本文提出了一种具有 Nesterov 加速梯度的随机（在线）拟牛顿方法，用于解决神经网络中的大规模非凸优化问题，结果表明其性能优于传统的二阶 oBFGS 和 oLBFGS 方法以及常用的一阶随机梯度方法，还在不同的动量率和批处理大小下进行了说明。

Sep, 2019

一种强凸函数的鲁棒加速优化算法

本文提出了一种加速的一阶优化算法 —— 鲁棒动量法，可用于优化平滑强凸函数。该算法有一种参数可以调节对梯度噪声的稳健性与最差情况下的收敛速度之间的平衡。算法具有简单的解析形式，并通过在干净和梯度噪声情况下的一系列数值模拟进行了验证。

Oct, 2017

走向黎曼加速梯度方法

在弯曲流形环境下，提出了 Riemann 版 Nesterov 加速梯度算法 (RAGD)，并证明了在极小值附近 (半径取决于流形的截面曲率和条件数)，RAGD 算法具有加速收敛性，相比 Liu 等人 (2017) 的算法少了对非线性方程的精确求解，而且具有构造性和可计算性，所使用的证明利用了一个新的估计序列和关于非线性度量扭曲的新界定，两个思想可能是独立有趣的。

Jun, 2018

关于平滑和强凸优化问题的下限和上限

我们开发了一个新的框架来研究光滑和强凸优化算法，特别是针对二次函数，我们能够将优化算法作为线性运算的递归应用程序来检查，这揭示了一种强大的联系，即一类优化算法与多项式的分析理论之间的联系，从而导出了新的下界和上界，同时我们还以多项式相关的最优解的形式表达它，从而对 Nesterov 著名的加速梯度下降方法进行了新的系统推导。

Mar, 2015

关于优化中的加速方法

本文探讨了凸优化中梯度方法的加速现象，并将高阶梯度方法与拉格朗日泛函等价地联系起来，同时得出拉格朗日量具有时空不变性的结论。

Sep, 2015

加速拟牛顿近端外推算法：用于平滑凸优化的更快速率

本文提出了一种加速的拟牛顿近端外推（A-QPNE）算法来解决无约束光滑凸优化问题，证明了该方法能够实现收敛速度，并且通过蒙特罗 - 斯维特加速框架的变种来构建这个方法，并采用在线学习方法更新 Hessian 矩阵的近似，这个方法在一定范围内是优于 NAG 算法的.

Jun, 2023

广义平滑下的凸优化和非凸优化

本文介绍了一种新的非均匀光滑条件下的优化方法，并开发出一种简单但有效的分析技术来限制沿轨迹的梯度，从而获得更强的凸优化和非凸优化问题的结果。我们通过这种新方法证明了（随机）梯度下降和 Nesterov 加速梯度法在这种一般的光滑条件下的收敛率，而不需要梯度剪裁，并允许在随机场景中的有界方差的重尾噪声。

Jun, 2023

加速重缩放梯度下降：平滑函数的快速优化

本文提出了下降算法族，引入了一种名为坐标梯度算法的新的一阶算法，并证明了在函数强平滑的情况下，坐标梯度算法的收敛速度比梯度下降算法更快。当目标函数为凸函数时，我们提出了两种新颖的 “加速” 下降方法的框架，一种是 Nesterov 风格的，另一种是 Monteiro 和 Svaiter 风格的，都使用单个 Lyapunov 进行加速。在相同的强平滑性假设下，坐标梯度下降可以使用两个框架加速。我们提供了一些在机器学习领域中强平滑损失函数的实例和数值实验来验证我们的理论结果，另外还介绍了一些关于 Lyapunov 优化的扩展，包括导出最优通用张量方法以及将我们的框架扩展到坐标设置中。

Feb, 2019

加速额外梯度下降：一种新的加速一阶方法

提出了一种新的加速一阶方法 (AXGD)，采用了预测 - 校正方法，解决了凸 - 凹鞍点问题，通过隐式欧拉离散化构建了加速连续时间动态模型，并通过原始 - 对偶视角进行了分析，对于其他类别的目标也能够达到最佳收敛速度。

Jun, 2017

一种基于最优平方平均的一阶优化方法

介绍了一种新的针对最小化平滑强凸函数的一阶方法 —— 几何下降法，其迭代序列可以由一个方案生成，该方案在每次迭代时计算函数的二次下届的最优平均值，从而在最优速率下接近真实最小值。

Apr, 2016