SGD和Hogwild!:在无需有界梯度假设的情况下收敛
本文研究了随机梯度下降在随机情形下的最优性。结果表明,对于光滑问题,算法可以达到最优的O(1/T)收敛速率,但对于非光滑问题,平均收敛速率可能真的是Ω(log(T)/T),而这不仅仅是分析的产物。反过来,我们展示了一种简单的平均步骤修改方法,足以恢复到O(1/T)收敛速率,而无需对算法做出任何其他改变。此外,我们还给出了支持我们发现的实验结果,并指出了开放性问题。
Sep, 2011
本文探讨了在没有光滑假设的情况下,以及通过运行平均方案将SGD迭代转换为具有最佳优化精度的解决方案的性能,并证明了对于凸非光滑目标函数,最后一个SGD迭代的次优性的程度随T的轮次按O(log(T)/ sqrt(T))缩放,对于非光滑强凸情况,次优性的程度随T按O(log(T)/ T)缩放。此外,本文提出了一种新的简单平均方案,并提供了一些实验说明。
Dec, 2012
本文通过马丁戈尔分析方法,研究了异步执行和低精度优化技术在随机梯度下降算法中的应用,包括推导了Hogwild!收敛速率、分析了非凸矩阵问题的异步SGD算法,以及设计了Buckwild!算法,并在现代硬件上进行了实验。
Jun, 2015
本文探讨了采用SGD 进行机器学习的收敛性问题,特别是在采用线性可分数据及单调函数损失函数的情况下,证明了 SGD 在固定非零学习率的条件下可以收敛至零损失,对于分类问题中的单调函数损失函数(例如对数损失),每次迭代权重向量趋向于$L_2$最大裕度向量,且损失以$O(1/t)$的速率收敛。
Jun, 2018
本研究针对带图等情景,探讨Stochastic gradient descent (SGD)中consitent estimator的效用及其相对于unbiased estimator的同等收敛性。实验证明,consistent estimator在strongly convex, convex, and nonconvex目标下均表现良好,这一研究有助于进一步提高SGD的效率并设计大规模图的高效训练算法。
Jul, 2018
本文对随机梯度下降法(SGD)的收敛性进行了分析,提出了一种新的假设随机梯度较真实梯度的范数更小的分析方法,并在多个情境下证明了SGD的收敛性,拓展了当前一类可达到收敛性的学习率。
Nov, 2018
本文研究证明了随机梯度下降在非凸学习中,无需统一梯度有界性假设也能达到最优收敛率的情况,并在一定程度上对于一般非凸目标函数和梯度主导的目标函数实现了几乎必然收敛。特别地,在方差为零的情况下可以得到线性收敛。
Feb, 2019
证明在L-平滑度条件下, 随机梯度下降的迭代收敛速度的数量级为O(LR2exp[-(mu/4L)T]+sigma2/muT),其中sigma2是随机噪声方差, 且收敛速度与最佳已知的GD和SGD迭代复杂度匹配.
Jul, 2019
通过分析,本文展示了当总迭代次数足够大时,随机梯度下降法(SGD)的最终迭代中存在一个 ε-稳定点,这是一个比现有结果更强的结论,并且可以在 SGD 的最终迭代中度量 ε-稳定点的密度,同时对于目标函数和随机梯度的边界条件,我们恢复了经典的 O(1/√T) 渐进速率,此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说,并提出了一些有启发性的研究方向。
Oct, 2023
本研究针对高维学习中随机梯度下降(SGD)及其加速变种的最优性问题进行探讨,填补了这一领域的研究空白。通过建立动量加速SGD的收敛上界,论文提出了在特定问题下SGD或ASGD能实现最小-最大最优收敛速率的具体条件。此外,研究结果揭示了SGD在学习“稠密”特征及易问题中的高效性,并表明动量能够在相对困难的学习问题上显著加速收敛速度。
Sep, 2024