YellowFin与动量调整艺术
本文证明,异步优化算法中添加一类类动量项,可加速训练多层神经网络,对于卷积神经网络,异步度与动量呈直线关系,故在异步执行时,动量调整得当可提升算法效率,反之也可采用相反的动量来改善结果。
May, 2016
我们提出了一种称为QHM的算法,它是对动量随机梯度下降的一种极其简单的改进,并通过平均简单的SGD步骤和动量步骤来实现。我们考虑了该算法与其他算法之间的联系和等同性,并表征了QHM可以恢复的二状态优化算法集合。最后,我们提出了一种名为QHAdam的QH变体,并在各种情况下进行了实证研究,包括WMT16 EN-DE的新的最先进结果。我们希望这些实证结果,以及QHM和QHAdam的概念和实用的简洁性,将激发从实践者和研究人员的兴趣。
Oct, 2018
本文介绍了一种名为MaSS的算法,它使用与SGD相同的步长,但具有比SGD更快的加速收敛速度。该算法解决了Nesterov SGD的不收敛问题,并分析了收敛速度和最优超参数对于mini-batch size的依赖性。实验结果表明,MaSS算法在多个深度网络架构中均表现出比SGD、Nesterov SGD和Adam更优秀的性能。
Oct, 2018
本文证明了优化器比较对超参数调整协议的敏感性,提出探究搜索空间是解释当前文献中最新动态排名的最重要因素之一,并展示实验结果证明了目前广泛使用的自适应梯度方法永远不会劣于动量或梯度下降。
Oct, 2019
本研究探讨了随机动量梯度下降(stochastic momentum)算法在深度神经网络训练中的作用,提出了其改进了随机梯度下降算法以更快地逃离鞍点并找到更快的二阶稳定点的结论。理论分析表明,$eta$应该接近1,这与实验结果一致。
Jun, 2021
通过对比带动量的随机梯度下降(SGDM)和不带动量的随机梯度下降(SGD)的表现,发现动量加速与突然的尖峰有关,而动量的作用是防止或推迟尖峰的发生,并揭示了动量、学习率和批次大小之间的相互作用,可以加速SGDM的性能。
Jun, 2023
本文旨在清楚地区分随机梯度下降法和带动量的Adam算法在收敛速度方面的差异。我们证明了在非均匀有界平滑性条件下,Adam算法相对于随机梯度下降法具有更快的收敛速度。我们的发现表明:(1)在确定性环境中,Adam算法可以达到确定性一阶优化器收敛速度的已知下界,而具有动量的梯度下降法的收敛速度对初始函数值具有更高的依赖度;(2)在随机设置中,Adam算法的收敛速度上界与随机一阶优化器的下界相匹配,同时考虑初始函数值和最终误差,而随机梯度下降法的学习率存在无法收敛的情况。这些观点可以明显区分Adam算法和随机梯度下降法的收敛速度。此外,通过引入一种新的基于停止时间的技术,我们进一步证明了如果在迭代过程中考虑最小梯度范数,相应的收敛速度可以在所有问题超参数上匹配下界。该技术还可以帮助证明具有特定超参数调度器的Adam算法是参数不可知的,这一点可能具有独立的研究意义。
Mar, 2024