Mar, 2024

Adam 在非均匀平滑性条件下的收敛性:从 SGDM 到更进一步的分离性

TL;DR本文旨在清楚地区分随机梯度下降法和带动量的 Adam 算法在收敛速度方面的差异。我们证明了在非均匀有界平滑性条件下,Adam 算法相对于随机梯度下降法具有更快的收敛速度。我们的发现表明:(1)在确定性环境中,Adam 算法可以达到确定性一阶优化器收敛速度的已知下界,而具有动量的梯度下降法的收敛速度对初始函数值具有更高的依赖度;(2)在随机设置中,Adam 算法的收敛速度上界与随机一阶优化器的下界相匹配,同时考虑初始函数值和最终误差,而随机梯度下降法的学习率存在无法收敛的情况。这些观点可以明显区分 Adam 算法和随机梯度下降法的收敛速度。此外,通过引入一种新的基于停止时间的技术,我们进一步证明了如果在迭代过程中考虑最小梯度范数,相应的收敛速度可以在所有问题超参数上匹配下界。该技术还可以帮助证明具有特定超参数调度器的 Adam 算法是参数不可知的,这一点可能具有独立的研究意义。