强生长条件下随机梯度下降的快速收敛

Aug, 2013

强生长条件下随机梯度下降的快速收敛

Fast Convergence of Stochastic Gradient Descent under a Strong Growth Condition

Mark Schmidt, Nicolas Le Roux

TL;DR本文考虑优化一个平滑凸函数，该函数是一组可微函数的平均数，在每个梯度的范数受到平均梯度范数的线性约束的假设下，证明了基本的随机梯度方法具有 O (1/k) 的收敛速度，并且在强凸条件下具有线性收敛速度。

Abstract

We consider optimizing a function smooth convex function $f$ that is the average of a set of differentiable functions $f_i$, under the assumption considered by Solodov [1998] and Tseng [1998] that the norm of each gradient $f_i'$ is bounded by a linear function of the norm of the average gradient $f'$. We show that under these assumptions the basic

optimization convex analysis stochastic gradient method convergence rate strong-convexity

发现论文，激发创造

强凸随机优化的最优梯度下降算法

本文研究了随机梯度下降在随机情形下的最优性。结果表明，对于光滑问题，算法可以达到最优的 O (1/T) 收敛速率，但对于非光滑问题，平均收敛速率可能真的是 Ω(log (T)/T)，而这不仅仅是分析的产物。反过来，我们展示了一种简单的平均步骤修改方法，足以恢复到 O (1/T) 收敛速率，而无需对算法做出任何其他改变。此外，我们还给出了支持我们发现的实验结果，并指出了开放性问题。

Sep, 2011

Polyak 学习率的随机梯度下降

本文提出将 Subgradient 方法中的 Polyak 步长推广到随机梯度下降中，并证明了该算法可以在非渐进情况下以更好的速率收敛于优化解，该算法在训练深度神经网络等问题上表现良好。

Mar, 2019

SGD 对超参数模型的更快收敛和快速收敛，及加速感知器

通过研究表明，在现代机器学习中，采用具有极高表现力的模型进行训练，可以实现完全拟合或内插数据，从而得到零训练损失。我们证明，采用恒定步长随机梯度下降法（SGD）与 Nesterov 加速法具有相同的收敛速度，适用于凸和强凸函数。同时，我们发现，SGD 可以在非凸情况下像全梯度下降法一样高效地找到一阶稳定点。最后，我们通过对合成和真实数据集的实验验证了我们的理论发现。

Oct, 2018

基于插值的随机加速梯度下降算法的快速收敛

我们在插值条件下证明了随机 Nesterov 加速的新的收敛速度。不同于以往的分析，我们的方法可以加速任何在期望中取得足够进展的随机梯度方法。证明使用估计序列框架进行，适用于凸函数和强凸函数，并且可以轻松推广到满足强生长条件的加速 SGD。在这种特殊情况下，我们的分析将强生长常数的依赖性从 ρ 减小到√ρ，相对于以前的工作来说，这一改进相当于最坏情况下条件数的平方根，并解决了对于随机加速的保证可能不如 SGD 的批评。

Apr, 2024

（随机）梯度方法的统一最优分析

证明在 L - 平滑度条件下，随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差，且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.

Jul, 2019

非强凸平稳随机逼近，收敛速率 O (1/n)

本篇论文研究了关于随机逼近问题的现有算法，提出了两种新型随机梯度算法，并在回归和逻辑分类两种经典的监督学习问题上进行了测试，得到了较好的优化效果。

Jun, 2013

随机近端梯度算法的收敛性

本文基于凸优化中函数是光滑和非光滑组合的形式，证明了一种适用于大类凸优化问题的随机近端梯度算法收敛性质，其避免了平均化和理论研究中常见但实际中不一定满足的有界性假设，证明了一系列强、弱收敛性结果，并得到了期望意义下的 $O (1/n)$ 的有界性结果。

Mar, 2014

平滑强凸函数的随机逼近：超越 $O (1/T)$ 收敛速度

利用凸性和平滑性同时优化了随机逼近的收敛速度，并构建了高效的随机算法来达到风险界限。

Jan, 2019

随机梯度方法在梯度主导条件下的几乎必然收敛速率

基于全局和局部梯度支配的随机梯度下降法收敛速度证明及其在监督学习和强化学习中的应用。

May, 2024

非光滑随机梯度下降的严格分析

使用随机梯度下降来最小化 Lipschitz 函数和强凸函数但不一定可微的问题，证明了在 T 步随机梯度下降后，最终迭代的误差高概率为 O (log (T)/T)；同时构造了一个函数，证明了在确定性梯度下降中，最终迭代的误差为 Ω(log (T)/T)；然后证明了在采用后缀平均法的情形下，它的高概率误差界是优化函数相关类别中的最优界（O (1/T)）；最后证明了对于 Lipschitz 和凸函数 class，使用随机梯度下降解决此问题后，最终迭代的误差高概率为 O (log (T)/sqrt (T))

Dec, 2018