动量算法改进归一化随机梯度下降
通过在每个时间点对更新进行指数分布随机标量缩放的方式,我们提出的方法对于高度不规则的、非凸非光滑的损失函数在优化神经网络训练中表现出最优的收敛保证。这个结果是通过将在线凸优化算法转化为非凸优化算法的一般框架自然得出的。
May, 2024
本研究讨论了使用第一阶梯度算法进行的非凸随机优化问题,其中梯度估计可能具有重尾特征,结果表明梯度剪裁,动量和归一化梯度下降的组合可以在高概率下收敛于关键点,特别适用于光滑损失的已知最佳速率,适用于任意光滑度规范,并针对克服该领域二阶光滑损失引发的问题进行讨论。
Jun, 2021
随机梯度下降 (SGD) 与动量在收敛性和泛化能力方面具有快速收敛和优秀的表现,但缺乏理论解释。本文证明了 SGD 与动量使目标函数平滑化,平滑程度由学习率、批量大小、动量因子、随机梯度的方差和梯度范数的上界决定。这一理论发现揭示了动量为何改善泛化性能,并对包括动量因子在内的超参数的作用提供了新的见解。我们还提出了一种利用 SGD 与动量平滑性质的隐性渐变优化算法,并提供了支持我们断言的实验结果。
Feb, 2024
本文介绍了 SGD 与 momentum (SGDM) 对于光滑目标在强凸和非凸背景下的收敛速度,并确证了多阶段策略对于 SGDM 的好处,并通过数值实验验证了理论结论。
Jul, 2020
STORM 是一种新的算法,可以用于非凸优化中的方差缩减技术,其不需要任何 batch,具备自适应学习率,相对其他技术,具备更简单易用的优点。
May, 2019
本研究分析了随机梯度下降与动量法在强凸设置下的有限样本收敛速度,并证明了 Polyak-averaging 版本的 SGDM 估算器的渐近正态性以及其与平均 SGD 的渐近等价性。
May, 2023
本文提出了一个新的分析框架来研究 mini-batch SGD 对于具有常数学习率、动量和批次大小的线性模型的噪声平均属性,探讨了问题的谱分布对算法的影响,并验证了使用负动量可以实现最优收敛速率的理论预测。
Jun, 2022
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。
Jul, 2020
本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$ 应该接近 1,这与实验结果一致。
Jun, 2021