随机梯度下降与动量的改进分析

Jul, 2020

An Improved Analysis of Stochastic Gradient Descent with Momentum

Yanli Liu, Yuan Gao, Wotao Yin

TL;DR本文介绍了 SGD 与 momentum (SGDM) 对于光滑目标在强凸和非凸背景下的收敛速度，并确证了多阶段策略对于 SGDM 的好处，并通过数值实验验证了理论结论。

Abstract

sgd with momentum (SGDM) has been widely applied in many machine learning tasks, and it is often applied with dynamic stepsizes and momentum weights tuned in a stagewise manner. Despite of its empirical advantage

sgd with momentum dynamic stepsizes convergence guarantee multistage setting numerical experiments

发现论文，激发创造

平均加速随机梯度下降算法：有限样本速率和渐近正态性

本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度，并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。

May, 2023

自适应带动量的 SGD 高概率分析

本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析，证明了在弱假设条件下，Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。

Jul, 2020

非凸优化中动量 SGD 的扩散近似理论

本文通过对非凸优化问题的扩散逼近，分析了 Momentum 随机梯度下降算法的算法行为，发现该算法对于强鞍点的逃逸具有帮助，但在优化器的周围区域内妨碍了收敛（未进行步长退火或动量退火），本文的理论发现部分验证了 MSGD 在训练深度神经网络中的实证成功。

Feb, 2018

隐式逐步优化中动量在平滑目标函数中的作用

随机梯度下降 (SGD) 与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现，但缺乏理论解释。本文证明了 SGD 与动量使目标函数平滑化，平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能，并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用 SGD 与动量平滑性质的隐性渐变优化算法，并提供了支持我们断言的实验结果。

Feb, 2024

随机动量法快速逃脱鞍点

本研究探讨了随机动量梯度下降（stochastic momentum）算法在深度神经网络训练中的作用，提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明，$eta$ 应该接近 1，这与实验结果一致。

Jun, 2021

SGD 的加速动量：何时及为何加速？—— 一个实证研究

通过对比带动量的随机梯度下降（SGDM）和不带动量的随机梯度下降（SGD）的表现，发现动量加速与突然的尖峰有关，而动量的作用是防止或推迟尖峰的发生，并揭示了动量、学习率和批次大小之间的相互作用，可以加速 SGDM 的性能。

Jun, 2023

非光滑非凸优化中的随机放缩和动量

通过在每个时间点对更新进行指数分布随机标量缩放的方式，我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。

May, 2024

探索动量如何提高深度学习的泛化能力

本文考察了随机梯度下降（SGD）算法过程中的冲量（momentum）对深度学习模型的收敛和泛化的影响，提出了冲量在提高泛化能力方面的新视角，并在一个一层卷积神经网络的分类问题中得出，使用加冲量的梯度下降（GD+M）算法可以有效提高模型的泛化能力。

Jul, 2022

用于凸优化的 Shuffling Momentum Gradient 算法

本文通过对分类的动量渐变法的分析，对有限和强凸优化问题进行了研究，并取得了与现有文献中最好成绩相匹配的结果。

Mar, 2024

$μ^2$-SGD: 双动量机制实现稳定随机优化

研究通过基于动量的两种近期机制，结合两者来得出新的梯度估计，设计基于 SGD 的算法和加速版本的算法，并展示这些新方法对学习率选择的鲁棒性以及在无噪音和有噪音情况下具有相同的最佳收敛速度。

Apr, 2023