随机梯度方法的最后迭代收敛性再探讨
本文对随机梯度下降法(SGD)的收敛性进行了分析,提出了一种新的假设随机梯度较真实梯度的范数更小的分析方法,并在多个情境下证明了SGD的收敛性,拓展了当前一类可达到收敛性的学习率。
Nov, 2018
使用随机梯度下降来最小化Lipschitz函数和强凸函数但不一定可微的问题,证明了在T步随机梯度下降后,最终迭代的误差高概率为O(log(T)/T);同时构造了一个函数,证明了在确定性梯度下降中,最终迭代的误差为Ω(log(T)/T);然后证明了在采用后缀平均法的情形下,它的高概率误差界是优化函数相关类别中的最优界(O(1/T));最后证明了对于Lipschitz和凸函数 class,使用随机梯度下降解决此问题后,最终迭代的误差高概率为O(log(T)/sqrt(T))
Dec, 2018
本文旨在设计新的步长序列,以获得对最后一点的 SGD 和 GD 的理论最佳子优越性保证,并通过模拟验证了新的步长序列相对于标准步长序列的改进,主要涉及随机梯度下降、优化、步长序列、子优越性和收敛率。
Apr, 2019
证明在L-平滑度条件下, 随机梯度下降的迭代收敛速度的数量级为O(LR2exp[-(mu/4L)T]+sigma2/muT),其中sigma2是随机噪声方差, 且收敛速度与最佳已知的GD和SGD迭代复杂度匹配.
Jul, 2019
本文研究了随机梯度下降法和随机重球法在一般随机逼近问题上的收敛速度和最后迭代时的表现,证明了加权平均的迭代数的 收敛率,以及在非超参数区域内使用随机线性搜索和随机Polyak步进时的收敛性,并证明了最后一个重球的迭代收敛于极小化器,最后在非凸设置中证明了关于SGD轨迹下最低梯度范数的相似速率结果。
Jun, 2020
本文针对随机梯度下降算法在非凸问题中的收敛性进行轨迹分析,首先证明了在广泛的步长策略范围内,SGD生成的迭代序列保持有界并以概率1收敛,随后证明了SGD避开了严格的鞍点/流形的概率是1,最后证明了算法在采用Theta(1/n^p)步长时收敛速度为O(1/n^p),这为调整算法步长提供了重要的指导建议,并且在CIFAR的ResNet架构中,展示了此启发式方法加速收敛的效果。
Jun, 2020
研究了神经网络在最小二乘设置中的应用,讨论了随机梯度下降与最终迭代的相关性,并在统计和优化双重视角下给出了多项式瞬时收敛率的解读,建立与再生核希尔伯特空间的联系。
Feb, 2021
通过分析,本文展示了当总迭代次数足够大时,随机梯度下降法(SGD)的最终迭代中存在一个 ε-稳定点,这是一个比现有结果更强的结论,并且可以在 SGD 的最终迭代中度量 ε-稳定点的密度,同时对于目标函数和随机梯度的边界条件,我们恢复了经典的 O(1/√T) 渐进速率,此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说,并提出了一些有启发性的研究方向。
Oct, 2023
通过研究一类广泛的非线性随机梯度下降方法在高概率下的收敛界限,我们证明了对于具有Lipschitz连续梯度的强凸损失函数,即使在噪声具有重尾分布的情况下,也能实现失败概率的对数依赖性,这对于任何具有有界(逐分量或联合)输出的非线性性质(如剪切、归一化和量化)都是成立的,与以往对于具有重尾噪声的研究相比,我们的研究结果在噪声的矩阶限制上得以松弛。
Oct, 2023