非光滑非凸优化中的随机放缩和动量
本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$ 应该接近 1,这与实验结果一致。
Jun, 2021
本文介绍了 SGD 与 momentum (SGDM) 对于光滑目标在强凸和非凸背景下的收敛速度,并确证了多阶段策略对于 SGDM 的好处,并通过数值实验验证了理论结论。
Jul, 2020
本研究论文探讨了随机梯度下降(SGD)方法及其变种在训练非光滑激活函数构建的神经网络中的收敛性质,提出了一种新的框架,分别为更新动量项和变量分配不同的时间尺度。在一些温和条件下,我们证明了我们提出的框架在单一时间尺度和双时间尺度情况下的全局收敛性。我们展示了我们提出的框架包含了许多著名的 SGD 类型方法,包括 heavy-ball SGD、SignSGD、Lion、normalized SGD 和 clipped SGD。此外,当目标函数采用有限和形式时,我们证明了基于我们提出的框架的这些 SGD 类型方法的收敛性质。特别地,在温和的假设条件下,我们证明了这些 SGD 类型方法以随机选择的步长和初始点找到了目标函数的 Clarke 稳定点。初步的数值实验表明了我们分析的 SGD 类型方法的高效性。
Jul, 2023
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。
Jul, 2020
本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度,并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。
May, 2023
本研究提出使用 momentum 相对于 normalized SGD 来解决 non-convex issues,若 objectives 带有有限的第二导数,采用带的动量公式提高了收敛速度,且适用于大规模任务如 ResNet-50 和 BERT pretraining。
Feb, 2020
本文通过对分类的动量渐变法的分析,对有限和强凸优化问题进行了研究,并取得了与现有文献中最好成绩相匹配的结果。
Mar, 2024
本文介绍了一种随机子梯度方法,该方法结合了动量项,能够在一类广泛意义下的非光滑、非凸和受约束的优化问题中建立一个特殊的李亚普诺夫函数,实现快速收敛。
Feb, 2020