动量算法改进归一化随机梯度下降

Feb, 2020

动量算法改进归一化随机梯度下降

Momentum Improves Normalized SGD

Ashok Cutkosky, Harsh Mehta

TL;DR本研究提出使用 momentum 相对于 normalized SGD 来解决 non-convex issues，若 objectives 带有有限的第二导数，采用带的动量公式提高了收敛速度，且适用于大规模任务如 ResNet-50 和 BERT pretraining。

Abstract

We provide an improved analysis of normalized sgd showing that adding momentum provably removes the need for large batch sizes on

sgd momentum large batch sizes non-convex convergence rates

发现论文，激发创造

非光滑非凸优化中的随机放缩和动量

通过在每个时间点对更新进行指数分布随机标量缩放的方式，我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。

May, 2024

非凸随机优化中重尾的高概率界限

本研究讨论了使用第一阶梯度算法进行的非凸随机优化问题，其中梯度估计可能具有重尾特征，结果表明梯度剪裁，动量和归一化梯度下降的组合可以在高概率下收敛于关键点，特别适用于光滑损失的已知最佳速率，适用于任意光滑度规范，并针对克服该领域二阶光滑损失引发的问题进行讨论。

Jun, 2021

小学习率随机梯度下降的边际动量价值

这篇论文研究了动量在随机优化中的作用，通过理论分析和实验证明，在学习率较小且梯度噪声是不稳定的主要来源时，动量对于优化和泛化的效果有限。

Jul, 2023

隐式逐步优化中动量在平滑目标函数中的作用

随机梯度下降 (SGD) 与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现，但缺乏理论解释。本文证明了 SGD 与动量使目标函数平滑化，平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能，并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用 SGD 与动量平滑性质的隐性渐变优化算法，并提供了支持我们断言的实验结果。

Feb, 2024

随机梯度下降与动量的改进分析

本文介绍了 SGD 与 momentum (SGDM) 对于光滑目标在强凸和非凸背景下的收敛速度，并确证了多阶段策略对于 SGDM 的好处，并通过数值实验验证了理论结论。

Jul, 2020

基于动量的方差减少在非凸 SGD 中的应用

STORM 是一种新的算法，可以用于非凸优化中的方差缩减技术，其不需要任何 batch，具备自适应学习率，相对其他技术，具备更简单易用的优点。

May, 2019

平均加速随机梯度下降算法：有限样本速率和渐近正态性

本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度，并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。

May, 2023

通过生成函数看小批量随机梯度下降法：收敛条件、相变、从负动量中受益

本文提出了一个新的分析框架来研究 mini-batch SGD 对于具有常数学习率、动量和批次大小的线性模型的噪声平均属性，探讨了问题的谱分布对算法的影响，并验证了使用负动量可以实现最优收敛速率的理论预测。

Jun, 2022

自适应带动量的 SGD 高概率分析

本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析，证明了在弱假设条件下，Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。

Jul, 2020

随机动量法快速逃脱鞍点

本研究探讨了随机动量梯度下降（stochastic momentum）算法在深度神经网络训练中的作用，提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明，$eta$ 应该接近 1，这与实验结果一致。

Jun, 2021