本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$ 应该接近 1,这与实验结果一致。
Jun, 2021
本研究设计了一个新算法,称为部分自适应动量估计方法,通过引入部分自适应参数 $p$,将 Adam/Amsgrad 与 SGD 统一起来,以实现从两个世界中获得最佳结果,并在随机非凸优化设置下证明了我们提出的算法的收敛速度。实验结果表明,与 SGD 一样,我们的算法可以在训练深度神经网络时维持快速的收敛率,并且可以像 Adam/Amsgrad 一样进行泛化,这些结果表明从此前的研究中看出,重视使用自适应梯度方法可以有效加速深度神经网络的训练。
Jun, 2018
在具有潜在无界梯度和仿射方差噪声的非凸光滑场景下,研究了 Adam 算法的理论性质,证明了它能够以高概率在多项式时间复杂度内找到一个稳定点,同时具有较好的自适应性能。
Feb, 2024
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum 算法可高概率收敛于全局最优解。
Jul, 2020
这篇论文研究了动量在随机优化中的作用,通过理论分析和实验证明,在学习率较小且梯度噪声是不稳定的主要来源时,动量对于优化和泛化的效果有限。
Jul, 2023
提出了一种新的 Adam 的记忆增强版本,通过在训练过程中使用关键动量项的缓冲区,推动探索更平坦的最小值,从而提高了标准监督语言建模和图像分类任务的性能。
通过使用新的自适应学习率,开发了带有动量方法的 MoMo and MoMo-Adam,并增强了模型通过使用批次损失和梯度来建立模型和较低下限估计的模型,实现迭代优化影像分类模型,相较于 SGDM 和 Adam,提高了准确性和鲁棒性。
May, 2023
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024
通过对比带动量的随机梯度下降(SGDM)和不带动量的随机梯度下降(SGD)的表现,发现动量加速与突然的尖峰有关,而动量的作用是防止或推迟尖峰的发生,并揭示了动量、学习率和批次大小之间的相互作用,可以加速 SGDM 的性能。
Jun, 2023
YellowFin 是一种基于 SGD 优化的自动调参方法,通过手动调整学习率和动量,可以达到和 Adam 优化器相当的效果,同时在异步训练环境下,引入负反馈回路可以进一步提高收敛速度。
Jun, 2017