动量加速对在线学习的影响

Mar, 2016

On the Influence of Momentum Acceleration on Online Learning

Kun Yuan, Bicheng Ying, Ali H. Sayed

TL;DR研究了动量随机梯度法在常数步长和慢适应区域的收敛速度和均方误差性能，结果表明动量方法相当于具有重新缩放（更大）步长值的标准随机梯度法，重新缩放的大小由动量参数的值确定。分析适用于一般的强凸和光滑风险函数，而不限于二次风险，发现动量构建在确定性优化问题中的优点并不一定适用于小常数步长的自适应在线设置中，以使根据持续的梯度噪声进行连续适应和学习。模拟结果表明，动量和标准随机梯度方法在非可微和非凸问题中也是等价的。

Abstract

The article examines in some detail the convergence rate and mean-square-error performance of momentum stochastic gradient methods in the

momentum stochastic gradient methods mean-square-error performance convergence rate adaptation regime risk functions

发现论文，激发创造

小学习率随机梯度下降的边际动量价值

这篇论文研究了动量在随机优化中的作用，通过理论分析和实验证明，在学习率较小且梯度噪声是不稳定的主要来源时，动量对于优化和泛化的效果有限。

Jul, 2023

关于 Nesterov 加速梯度方法在随机设置下的收敛性

研究了 Nesterov 加速梯度方法在随机逼近和有限和设置下的表现，发现使用通常的步长和动量参数，该方法在后者可能发散，进而阐明了这种方法在此情况下可能失败的原因。

Feb, 2020

随机梯度方法中动量的作用理解

该论文通过使用 QHM 的一般公式来对几种流行的算法进行统一分析，涵盖了它们的渐近收敛条件，稳定区域和其稳态分布的性质，通过结合收敛速度和稳态分布结果，得出了设置学习速率和动量参数的实用指南。

Oct, 2019

从平均到加速，只有步长

本文研究了针对非强凸问题的梯度下降、均值梯度下降以及重球法等算法的加速，表明可以将这些算法重新表述为常数参数二阶差分方程算法，并提供了详细的稳定性分析和显式常数的稳定性结果。同时，本文还讨论了噪声梯度情况下的情况，并给出了一种新的算法。

Apr, 2015

随机梯度下降与动量的改进分析

本文介绍了 SGD 与 momentum (SGDM) 对于光滑目标在强凸和非凸背景下的收敛速度，并确证了多阶段策略对于 SGDM 的好处，并通过数值实验验证了理论结论。

Jul, 2020

非光滑非凸优化中的随机放缩和动量

通过在每个时间点对更新进行指数分布随机标量缩放的方式，我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。

May, 2024

自适应带动量的 SGD 高概率分析

本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析，证明了在弱假设条件下，Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。

Jul, 2020

平均加速随机梯度下降算法：有限样本速率和渐近正态性

本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度，并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。

May, 2023

自适应 Polyak 重球方法中动量参数在最优收敛中的作用

本文旨在解决现实应用中使用随机梯度下降法进行深度学习和凸优化时，普遍使用最后一次迭代作为最终解决方案，但唯独它的可用遗憾分析和恒定动量参数设置只保证平均解的最佳收敛问题，并且探究单独收敛分析问题，最终我们证明了：在约束凸问题中，使用 Polyak's Heavy-ball 方法，它只能通过移动平均策略更新步长，即可获得 O（1 / 根号 T）的最优收敛率，而不是普通 SGD 的 O（log T / 根号 T）的优化。同时，我们的新型分析方法不仅阐释了 HB 动量及其时间变化的作用，还给出了有价值的暗示，即动量参数应如何进行安排。同时，针对优化凸函数和训练深度网络的实证结果，验证了我们收敛分析的正确性，并证明了自适应 HB 方法的改进性能。

Feb, 2021

隐式逐步优化中动量在平滑目标函数中的作用

随机梯度下降 (SGD) 与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现，但缺乏理论解释。本文证明了 SGD 与动量使目标函数平滑化，平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能，并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用 SGD 与动量平滑性质的隐性渐变优化算法，并提供了支持我们断言的实验结果。

Feb, 2024