$μ^2$-SGD: 双动量机制实现稳定随机优化
本文研究了非凸优化中动量随机梯度下降 (MSGD) 算法的连续性版本,并证明了在目标函数满足 Lipschitz 连续性和 Polyak-Lojasiewicz 不等式的条件下,MSGD 算法的目标函数极限收敛指数级收敛,同时在给定摩擦参数的情况下,MSGD 过程几乎必定收敛。
Feb, 2023
本文介绍了 SGD 与 momentum (SGDM) 对于光滑目标在强凸和非凸背景下的收敛速度,并确证了多阶段策略对于 SGDM 的好处,并通过数值实验验证了理论结论。
Jul, 2020
证明在 L - 平滑度条件下,随机梯度下降的迭代收敛速度的数量级为 O (LR2exp [-(mu/4L) T]+sigma2/muT), 其中 sigma2 是随机噪声方差,且收敛速度与最佳已知的 GD 和 SGD 迭代复杂度匹配.
Jul, 2019
随机梯度下降 (SGD) 与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现,但缺乏理论解释。本文证明了 SGD 与动量使目标函数平滑化,平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能,并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用 SGD 与动量平滑性质的隐性渐变优化算法,并提供了支持我们断言的实验结果。
Feb, 2024
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。
Jul, 2020
本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$ 应该接近 1,这与实验结果一致。
Jun, 2021
本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度,并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。
May, 2023
本文通过对分类的动量渐变法的分析,对有限和强凸优化问题进行了研究,并取得了与现有文献中最好成绩相匹配的结果。
Mar, 2024
该研究发展了随机修正方程 (SME) 框架的数学基础,以便于分析随机梯度算法的动态,其中后者由一类噪声参数很小的随机微分方程逼近。研究表明,这种逼近可以被理解为一种弱逼近,从而在随机目标的一般设置下,得出了关于随机梯度下降、动量 SGD 和随机 Nesterov 加速梯度方法逼近的一些精确而有用的结果。同时,我们还通过显式计算表明,这种连续时间方法可以揭示随机梯度算法的一些重要分析洞见,这在纯离散时间设置中可能很难获得。
Nov, 2018
本文提出了一种新算法:单时间尺度双动量随机逼近算法(SUSTAIN),用于解决随机无约束双层优化问题,重点关注下层子问题为强凸的双层问题和上层目标函数光滑情况下的解决方案,通过设计一种随机动量辅助梯度估计器来控制解决子问题的不准确性带来的随机梯度更新的误差,从而实现解决双层最优化问题的目的,其样本复杂度与传统单层随机梯度算法的最优复杂度相当。
Feb, 2021