使用几何步长衰减的随机算法对锐函数具有线性收敛性

Jul, 2019

使用几何步长衰减的随机算法对锐函数具有线性收敛性

Stochastic algorithms with geometric step decay converge linearly on sharp functions

Damek Davis, Dmitriy Drusvyatskiy, Vasileios Charisopoulos

TL;DR研究了通过几何步长递减法 (schedule) 本文给出了新的理论保证，以适应近现代的复杂非凸统计学习问题，其中利用所得结论，分别在高斯噪声模型和重尾分布下，分析了相位恢复和盲去卷积两个统计学任务，并取得了最优保证。

Abstract

Stochastic (sub)gradient methods require step size schedule tuning to perform well in practice. Classical tuning strategies decay the step size polynomially and lead to optimal sublinear rates on (strongly) convex problems. An alternative schedule, popular in nonconvex optimization, is called \emph{→

stochastic algorithms geometric step decay sharp nonconvex problems local linear rate of convergence statistical recovery tasks

发现论文，激发创造

阶梯衰减策略：一种近似最优、几何下降的最小二乘学习速率过程

这项工作研究了随机梯度下降对于流式最小二乘回归问题的最终迭代行为并探讨使用 Step Decay 调度方案实现可接受的改进，同时发现 SGD 的最终迭代行为不如期望，并强调了随机梯度下降固定时间限制下确定最优学习率方案的复杂性。

Apr, 2019

具有 Hölder 增长函数的更快次梯度方法

本文探讨次梯度法在极值点问题（特别是带有 Hölder 增长）中，固定和衰减步长下的收敛性及误差，并介绍了一种名为 “下降楼梯” 的步长方式，最终提出了一种自适应变体方法以实现更快的收敛速度。

Apr, 2017

自适应步长序列的随机梯度和次梯度方法

本文针对随机优化问题提出了两种自适应步长方案，并在此基础上设计了一种局部平滑技术，以获得可微的函数逼近，从而实现了一个自适应步长随机逼近框架。在三个随机优化问题中，两种方案表现良好并且不依赖用户定义参数。

May, 2011

Polyak 学习率的随机梯度下降

本文提出将 Subgradient 方法中的 Polyak 步长推广到随机梯度下降中，并证明了该算法可以在非渐进情况下以更好的速率收敛于优化解，该算法在训练深度神经网络等问题上表现良好。

Mar, 2019

自适应步长随机梯度下降算法的收敛性

通过研究广义 AdaGrad 步长在凸和非凸设置中，本文证明了这些步长实现梯度渐近收敛于零的充分条件，从而填补了这些方法理论上的空白。此外，本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下，实现 O（1/T）到 O（1 / 根号 T）的插值（带有对数项）。

May, 2018

指数和余弦步长的再审视：简易性、适应性和性能

研究指出指数步长和余弦步长是自适应噪声水平的，不需要知道噪声水平和调整超参数就可以达到几乎最佳性能。探讨了这两种优化策略的收敛速度和表现，实验证明它们最多只需要调整两个超参数就可达到优秀的表现。

Feb, 2020

面向噪声自适应、问题自适应（加速）随机梯度下降

通过利用指数步长和随机线性搜索等技术，使得随机梯度下降算法适应不同噪声水平和问题相关的常数，可以在强凸函数的条件下，取得与理论最优相近的收敛速度，同时能够有效地处理噪声和数据不凸的情况。

Oct, 2021

基于随机模型的弱凸函数最小化

本文提出一族算法通过简单的随机模型样本和优化方法，成功的减少了目标函数。我们展示出，合理的近似质量和模型的正则性下，此类算法将自然的稳定度衡量推向 0，该衰减速度为 O (k^(-1/4))，基于此原理，我们为随机的近端子梯度法，近端次梯度法以及规则化的高斯牛顿法等提供了第一个复杂性保证。

Mar, 2018

动态步长调度的局部最优下降

我们介绍了一种新颖的动态学习率调度方案，旨在简化实践中手动而耗时的调度。我们的方法基于估计局部最优步长，确保在当前步骤的随机梯度方向上实现最大下降。我们首先在平滑的非凸随机优化环境中建立了我们方法的理论收敛边界，与最新的边界相匹配，仅假设对平滑参数具有知识。然后，我们提出了我们算法的实际实现，并在不同数据集和优化算法上进行系统实验，将我们的方案与现有的最新学习率调度器进行比较。我们的发现表明，与现有方法相比，我们的方法需要最少的调整，消除了辅助手动调度和预热阶段的需要，并实现了具有大大减少参数调整的可比性能。

Nov, 2023

随机梯度下降在非凸问题中的几乎必然收敛

本文针对随机梯度下降算法在非凸问题中的收敛性进行轨迹分析，首先证明了在广泛的步长策略范围内，SGD 生成的迭代序列保持有界并以概率 1 收敛，随后证明了 SGD 避开了严格的鞍点 / 流形的概率是 1，最后证明了算法在采用 Theta (1/n^p) 步长时收敛速度为 O (1/n^p)，这为调整算法步长提供了重要的指导建议，并且在 CIFAR 的 ResNet 架构中，展示了此启发式方法加速收敛的效果。

Jun, 2020