Chung 引理的广义版本及其应用
本文提出将 Subgradient 方法中的 Polyak 步长推广到随机梯度下降中,并证明了该算法可以在非渐进情况下以更好的速率收敛于优化解,该算法在训练深度神经网络等问题上表现良好。
Mar, 2019
通过研究广义 AdaGrad 步长在凸和非凸设置中,本文证明了这些步长实现梯度渐近收敛于零的充分条件,从而填补了这些方法理论上的空白。此外,本文表明这些步长允许自动适应随机梯度噪声级别在凸和非凸情况下,实现 O(1/T)到 O(1 / 根号 T)的插值(带有对数项)。
May, 2018
本文探讨次梯度法在极值点问题(特别是带有 Hölder 增长 )中,固定和衰减步长下的收敛性及误差,并介绍了一种名为 “下降楼梯” 的步长方式,最终提出了一种自适应变体方法以实现更快的收敛速度。
Apr, 2017
本文研究在强凸光滑目标下使用常数步长随机梯度下降的优化问题,通过马洛夫链的视角对其性质进行研究,证明了当梯度噪音分布满足一定条件时,该迭代过程以总变差距离或 Wasserstein-2 距离收敛于一个不变分布,同时证明了该极限分布具有次高斯或次指数分布的浓度性质;最后针对一些具体应用,推导出了高可信度界限。
Jun, 2023
证明在 L - 平滑度条件下,随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差,且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.
Jul, 2019
本研究探讨了非凸非光滑目标函数中常数步长随机梯度下降算法的渐近正态结果,结果表明只要非凸和非光滑目标函数满足耗散性特性,SGD 算法的迭代平均值就会渐近正态分布,该结果可用于构建对于使用 SGD 算法的非凸问题的置信区间。同时,本文通过对其与马尔可夫链的关系进行了详细地分析,还对目标函数的临界点与其期望值之间的偏差进行了表征。
Jun, 2020
本文提供了一类可微测试函数的 Polyak-Ruppert 平均随机梯度下降(SGD)收敛到正态随机向量的非渐近速率,其中一个关键的中间步骤是证明一个非渐近鞅中心极限定理。我们使用 Stein 方法和 Lindeberg 的论证以及非渐近分析与 [PJ92] 提出的平均 SGD 一起得到了多元鞅 CLT 的显式速率。我们的结果对于使用 SGD 计算参数估计的置信区间以及在非渐近意义下构建假设检验的 SGD 可能具有有趣的影响。
Apr, 2019
本文将 Stein 的引理扩展到指数族混合分布,建立了 Stein 的引理和重新参数化技巧之间的联系,从而得到了许多新的可重新参数化的梯度等式,包括在学生 t 分布,偏斜高斯分布,指数修改高斯分布和正态逆高斯分布下的期望梯度
Oct, 2019
该文研究了使用随机梯度下降方法学习的大型过度参数化模型的收敛速度,并证明了当损失函数为凸函数或满足 Polyak-Lojasiewicz 条件的广泛非凸函数类时,常数步长下 SGD 可以实现指数收敛。
Nov, 2018