使用随机梯度下降法找到稳定点的复杂度
我们开发了一个新的框架来研究光滑和强凸优化算法,特别是针对二次函数,我们能够将优化算法作为线性运算的递归应用程序来检查,这揭示了一种强大的联系,即一类优化算法与多项式的分析理论之间的联系,从而导出了新的下界和上界,同时我们还以多项式相关的最优解的形式表达它,从而对Nesterov著名的加速梯度下降方法进行了新的系统推导。
Mar, 2015
本文将通过对随机梯度下降进行深入分析,证明当目标函数满足梯度Lipschitz、Hessian-Lipschitz和发散噪声假设时,SGD能够在O(ε^ -3.5)次随机梯度计算中逃离鞍点并找到(ε,O(ε^ 0.5))-近似二阶稳定点,从而推翻了SGD至少需要O(ε^ - 4)的经典信念。此类SGD速率与大多数采用其他技术的加速非凸随机优化算法的速率相匹配,如Nesterov的动量加速,负曲率搜索,以及二次和三次正则化技巧。本文的新型分析为非凸SGD提供了新的见解,并可潜在地推广到广泛的随机优化算法类。
Feb, 2019
本文探讨了在随机凸优化问题中寻找近似驻点的 oracle 复杂度问题和其和全局 oracle 模型的关系,并提出了一种扩展的递归正则化算法以实现接近最优率,并揭示了 stochastic optimization 和 learning 的复杂度之间的一些惊人区别。
Feb, 2019
证明在L-平滑度条件下, 随机梯度下降的迭代收敛速度的数量级为O(LR2exp[-(mu/4L)T]+sigma2/muT),其中sigma2是随机噪声方差, 且收敛速度与最佳已知的GD和SGD迭代复杂度匹配.
Jul, 2019
本文提出了一种新的Local SGD方法的分析方式,去掉了不必要的假设并详细阐述了同一和异构两种数据环境下的区别,对于这两种情况,我们提高了现有理论并提供了最优步长和最优本地迭代次数。我们的界限基于一种特定于不同数据的Local SGD方法的新的方差概念。当$H=1$时,我们恢复已知的语句以保证我们结果的紧密性。实证证据进一步验证了数据异构性对Local SGD性能的严重影响。
Sep, 2019
采用随机一阶方法找到梯度范数不超过ε的ε-稳定点的复杂度下界,使用具有有界方差的无偏随机梯度预言机访问光滑但可能非凸函数的一种模型,证明任何算法在最坏情况下需要至少ε^-4个查询才能找到ε-稳定点。对于噪声梯度估计满足均方光滑性质的更严格模型,我们证明了ε^ -3个查询的下界,建立了最近提出的方差缩减技术的最优性。
Dec, 2019
本文针对随机梯度下降算法在非凸问题中的收敛性进行轨迹分析,首先证明了在广泛的步长策略范围内,SGD生成的迭代序列保持有界并以概率1收敛,随后证明了SGD避开了严格的鞍点/流形的概率是1,最后证明了算法在采用Theta(1/n^p)步长时收敛速度为O(1/n^p),这为调整算法步长提供了重要的指导建议,并且在CIFAR的ResNet架构中,展示了此启发式方法加速收敛的效果。
Jun, 2020
本文探讨了随机梯度下降法与多项式衰减步长之间的关系,并证明无调谐的随机梯度下降法具有渐进最优的收敛速率,但需要面临指数级的平滑度常数;而规范化SGD、AMSGrad和AdaGrad方法可以在不知道平滑度参数和随机梯度边界条件的情况下消除梯度爆炸问题。
May, 2023
通过分析,本文展示了当总迭代次数足够大时,随机梯度下降法(SGD)的最终迭代中存在一个 ε-稳定点,这是一个比现有结果更强的结论,并且可以在 SGD 的最终迭代中度量 ε-稳定点的密度,同时对于目标函数和随机梯度的边界条件,我们恢复了经典的 O(1/√T) 渐进速率,此分析结果解决了与 SGD 的非凸收敛性相关的某些迷思和传说,并提出了一些有启发性的研究方向。
Oct, 2023