Chung 引理的广义版本及其应用

Jun, 2024

A Generalized Version of Chung's Lemma and its Applications

Li Jiang, Xiao Li, Andre Milzarek, Junwen Qiu

TL;DR发展了一个泛化版本的 Chung 引理，用于建立非渐进收敛速度的收敛框架，适用于更一般的步长规则，并为各种随机方法提供了紧致的非渐进收敛速度。

Abstract

chung's lemma is a classical tool for establishing asymptotic convergence rates of (stochastic) optimization methods under strong convexity-type assumptions and appropriate polynomial diminishing step sizes. In this work, we develop a generalized version of →

chung's lemma convergence rates stochastic optimization methods step size rules $(\theta, \mu)$-polyak-lojasiewicz (pl) condition

发现论文，激发创造

Polyak 学习率的随机梯度下降

本文提出将 Subgradient 方法中的 Polyak 步长推广到随机梯度下降中，并证明了该算法可以在非渐进情况下以更好的速率收敛于优化解，该算法在训练深度神经网络等问题上表现良好。

Mar, 2019

自适应步长随机梯度下降算法的收敛性

通过研究广义 AdaGrad 步长在凸和非凸设置中，本文证明了这些步长实现梯度渐近收敛于零的充分条件，从而填补了这些方法理论上的空白。此外，本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下，实现 O（1/T）到 O（1 / 根号 T）的插值（带有对数项）。

May, 2018

具有 Hölder 增长函数的更快次梯度方法

本文探讨次梯度法在极值点问题（特别是带有 Hölder 增长）中，固定和衰减步长下的收敛性及误差，并介绍了一种名为 “下降楼梯” 的步长方式，最终提出了一种自适应变体方法以实现更快的收敛速度。

Apr, 2017

梯度和近端梯度法在 Polyak-Łojasiewicz 条件下的线性收敛

介绍了一种不需要强凸性条件的梯度下降算法，并针对机器学习中的各种问题提供了新的分析方法和收敛证明。

Aug, 2016

通过马尔可夫链实现常数步长 SGD 的收敛和集中特性

本文研究在强凸光滑目标下使用常数步长随机梯度下降的优化问题，通过马洛夫链的视角对其性质进行研究，证明了当梯度噪音分布满足一定条件时，该迭代过程以总变差距离或 Wasserstein-2 距离收敛于一个不变分布，同时证明了该极限分布具有次高斯或次指数分布的浓度性质；最后针对一些具体应用，推导出了高可信度界限。

Jun, 2023

（随机）梯度方法的统一最优分析

证明在 L - 平滑度条件下，随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差，且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.

Jul, 2019

非凸区域中恒定步长随机梯度下降的分析：渐近正态性和偏差

本研究探讨了非凸非光滑目标函数中常数步长随机梯度下降算法的渐近正态结果，结果表明只要非凸和非光滑目标函数满足耗散性特性，SGD 算法的迭代平均值就会渐近正态分布，该结果可用于构建对于使用 SGD 算法的非凸问题的置信区间。同时，本文通过对其与马尔可夫链的关系进行了详细地分析，还对目标函数的临界点与其期望值之间的偏差进行了表征。

Jun, 2020

通过鞅 CLT 的非渐近速率对随机梯度下降进行正常近似

本文提供了一类可微测试函数的 Polyak-Ruppert 平均随机梯度下降（SGD）收敛到正态随机向量的非渐近速率，其中一个关键的中间步骤是证明一个非渐近鞅中心极限定理。我们使用 Stein 方法和 Lindeberg 的论证以及非渐近分析与 [PJ92] 提出的平均 SGD 一起得到了多元鞅 CLT 的显式速率。我们的结果对于使用 SGD 计算参数估计的置信区间以及在非渐近意义下构建假设检验的 SGD 可能具有有趣的影响。

Apr, 2019

指数族混合重参数化技巧的斯坦引理

本文将 Stein 的引理扩展到指数族混合分布，建立了 Stein 的引理和重新参数化技巧之间的联系，从而得到了许多新的可重新参数化的梯度等式，包括在学生 t 分布，偏斜高斯分布，指数修改高斯分布和正态逆高斯分布下的期望梯度

Oct, 2019

关于非凸过参数化学习中 SGD 的指数收敛

该文研究了使用随机梯度下降方法学习的大型过度参数化模型的收敛速度，并证明了当损失函数为凸函数或满足 Polyak-Lojasiewicz 条件的广泛非凸函数类时，常数步长下 SGD 可以实现指数收敛。

Nov, 2018