从平均到加速，只有步长

Apr, 2015

From Averaging to Acceleration, There is Only a Step-size

Nicolas Flammarion, Francis Bach

TL;DR本文研究了针对非强凸问题的梯度下降、均值梯度下降以及重球法等算法的加速，表明可以将这些算法重新表述为常数参数二阶差分方程算法，并提供了详细的稳定性分析和显式常数的稳定性结果。同时，本文还讨论了噪声梯度情况下的情况，并给出了一种新的算法。

Abstract

We show that accelerated gradient descent, averaged gradient descent and the heavy-ball method for non-strongly-convex problems may be ref

gradient descent non-strongly-convex problems difference equation algorithms stability noisy gradients

发现论文，激发创造

通过高分辨率微分方程理解加速现象

研究了基于梯度的优化和常微分方程的关系，提出了一种新的极限过程和高分辨率常微分方程模型，发现该模型比现有 ODEs 更为准确地刻画了 Nesterov 的加速梯度法（NAG-SC）以及 Polyak 的重球法之间的差异，对收敛性进行了分析，并利用此模型发现了关于 NAG-C 的新结果。

Oct, 2018

SGD 对超参数模型的更快收敛和快速收敛，及加速感知器

通过研究表明，在现代机器学习中，采用具有极高表现力的模型进行训练，可以实现完全拟合或内插数据，从而得到零训练损失。我们证明，采用恒定步长随机梯度下降法（SGD）与 Nesterov 加速法具有相同的收敛速度，适用于凸和强凸函数。同时，我们发现，SGD 可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后，我们通过对合成和真实数据集的实验验证了我们的理论发现。

Oct, 2018

非强凸最小二乘问题的加速随机梯度下降

本文提出了一种基于加速梯度下降的新随机逼近算法，该算法在非强凸情况下取得了最佳预测误差率，并在加速遗忘初始条件方面达到了最优效果，同时在算法的平均迭代次数和最终迭代次数上均提供了收敛结果，该算法还在无噪声环境下提供了一个匹配下界，展示了我们算法的最优性。

Mar, 2022

关于 Nesterov 加速梯度方法在随机设置下的收敛性

研究了 Nesterov 加速梯度方法在随机逼近和有限和设置下的表现，发现使用通常的步长和动量参数，该方法在后者可能发散，进而阐明了这种方法在此情况下可能失败的原因。

Feb, 2020

加速随机梯度下降算法用于最小二乘回归

本文研究加速随机梯度方法在最小二乘回归问题中的应用，通过对加速随机梯度下降作为随机过程的深入分析，证明了引入加速能够使其对统计误差具有鲁棒性，并提出了一种优于随机梯度下降的加速随机梯度方法。

Apr, 2017

重球法的非单调行为

本文探讨了二阶稳定线性差分方程的解及其对无约束优化方法 - Heavy Ball 方法的削弱效果的影响，提出了改进算法，通过引入新的 Lyapunov 函数，使方法的收敛性在较少的限制条件下得到确立，并建议了一些重新启动技术来加速方法的收敛。

Nov, 2018

从稳定到混沌：分析二次回归中的梯度下降动态

通过对大步长梯度下降在二次回归模型中的动力学进行全面调查，揭示了动力学可以由特定的三次映射来描述，并通过细致的分叉分析划分了五个不同的训练阶段，同时研究了非单调和非发散阶段的泛化性能。

Oct, 2023

关于优化中的加速方法

本文探讨了凸优化中梯度方法的加速现象，并将高阶梯度方法与拉格朗日泛函等价地联系起来，同时得出拉格朗日量具有时空不变性的结论。

Sep, 2015

自适应步长随机梯度下降算法的收敛性

通过研究广义 AdaGrad 步长在凸和非凸设置中，本文证明了这些步长实现梯度渐近收敛于零的充分条件，从而填补了这些方法理论上的空白。此外，本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下，实现 O（1/T）到 O（1 / 根号 T）的插值（带有对数项）。

May, 2018

基于收敛诊断的随机梯度下降的步长

本论文提出一种简单的统计程序，可以有效地检测恒定步长随机梯度下降法的转换和稳定阶段，从而快速获得收敛结果。这种统计程序在人工数据集和实际数据集上表现出最先进的性能，即便目标函数为二次时，传统的 Pflug 检验方法也不能提供足够的诊断。

Jul, 2020