这篇论文研究了动量在随机优化中的作用,通过理论分析和实验证明,在学习率较小且梯度噪声是不稳定的主要来源时,动量对于优化和泛化的效果有限。
Jul, 2023
本文通过对非凸优化问题的扩散逼近,分析了 Momentum 随机梯度下降算法的算法行为,发现该算法对于强鞍点的逃逸具有帮助,但在优化器的周围区域内妨碍了收敛(未进行步长退火或动量退火),本文的理论发现部分验证了 MSGD 在训练深度神经网络中的实证成功。
Feb, 2018
本文介绍了 SGD 与 momentum (SGDM) 对于光滑目标在强凸和非凸背景下的收敛速度,并确证了多阶段策略对于 SGDM 的好处,并通过数值实验验证了理论结论。
Jul, 2020
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。
通过研究神经网络中的优化算法,提出了一个名为 “自适应惯性” 的新方法,能够更好地训练神经网络并提高泛化性能。
Jun, 2020
通过在每个时间点对更新进行指数分布随机标量缩放的方式,我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。
May, 2024
本文考察了随机梯度下降(SGD)算法过程中的冲量(momentum)对深度学习模型的收敛和泛化的影响,提出了冲量在提高泛化能力方面的新视角,并在一个一层卷积神经网络的分类问题中得出,使用加冲量的梯度下降(GD+M)算法可以有效提高模型的泛化能力。
Jul, 2022
通过对比带动量的随机梯度下降(SGDM)和不带动量的随机梯度下降(SGD)的表现,发现动量加速与突然的尖峰有关,而动量的作用是防止或推迟尖峰的发生,并揭示了动量、学习率和批次大小之间的相互作用,可以加速 SGDM 的性能。
Jun, 2023
本文通过对分类的动量渐变法的分析,对有限和强凸优化问题进行了研究,并取得了与现有文献中最好成绩相匹配的结果。
Mar, 2024
本文研究随机动量方法,包含随机梯度法(SG),随机重球方法(SHB)和随机 Nesterov's 加速梯度方法(SNAG)。我们提出了一个框架,统一了这三种方法,并通过一致稳定性方法推导了梯度范数的收敛速率和推导了非凸优化问题。同时,我们也分别分析了这三个方法的收敛率和泛化性能。研究结果表明,动量项可以提高学习模型的稳定性和泛化性能。
Aug, 2018