自适应惯性:解离自适应学习率和动量的影响
YellowFin是一种基于SGD优化的自动调参方法,通过手动调整学习率和动量,可以达到和Adam优化器相当的效果,同时在异步训练环境下,引入负反馈回路可以进一步提高收敛速度。
Jun, 2017
本研究设计了一个新算法,称为部分自适应动量估计方法,通过引入部分自适应参数$p$,将Adam/Amsgrad与SGD统一起来,以实现从两个世界中获得最佳结果,并在随机非凸优化设置下证明了我们提出的算法的收敛速度。实验结果表明,与SGD一样,我们的算法可以在训练深度神经网络时维持快速的收敛率,并且可以像Adam/Amsgrad一样进行泛化,这些结果表明从此前的研究中看出,重视使用自适应梯度方法可以有效加速深度神经网络的训练。
Jun, 2018
通过引入重加权AdaGrad联合动量,AdaUSM在解决难以收敛的随机问题时,其带权高斯平均符合实时梯度下降法 (SGD) 和AdaGrad的学习率下降速度,同时还能实现SGD动量和Nesterov学习率全方位的整合。
Aug, 2018
该论文研究了深度学习中广泛使用的自适应方法,如Adam和RMSProp,将它们视为预处理的随机梯度下降算法,并提出了新的观点,旨在精确地描述它们在非凸情况下的行为和性能,并证明了它们比传统的SGD算法更快地从鞍点逃脱,并且在总体上更快地收敛到二阶稳定点。
Jan, 2019
本文对机器学习应用中广泛使用的随机梯度下降及其变种算法在非凸优化问题中的收敛性做了一系列的理论分析,证明了在弱假设条件下,Delayed AdaGrad with momentum算法可高概率收敛于全局最优解。
Jul, 2020
该研究旨在通过分析局部收敛行为来解释为什么类似ADAM的适应性梯度算法的泛化性能比SGD差,尤其是它们在梯度噪声方面存在重尾现象;研究结果表明,SGD相比于ADAM能更好地从局部最小值中逃脱,并且在平缓的最小值处表现更好。实验结果证实了我们的理论假设。
Oct, 2020
本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$应该接近1,这与实验结果一致。
Jun, 2021
通过对比带动量的随机梯度下降(SGDM)和不带动量的随机梯度下降(SGD)的表现,发现动量加速与突然的尖峰有关,而动量的作用是防止或推迟尖峰的发生,并揭示了动量、学习率和批次大小之间的相互作用,可以加速SGDM的性能。
Jun, 2023
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的SGD优化方法对于一类简单的二次最小化问题收敛于最小化器。
Jun, 2024