TL;DR本文提供了自适应矩估计(Adam)算法对于广泛类别的优化目标的收敛性严谨证明,并在更为现实的条件下证明了 Adam 算法可收敛于 ε- 稳定点。同时,我们提出了一种方差抑制的加速梯度复杂度版本的 Adam 算法。
Abstract
In this paper, we provide a rigorous proof of convergence of the Adaptive
Moment Estimate (Adam) algorithm for a wide class of optimization objectives.
Despite the popularity and efficiency of the adam algorithm
本论文通过探索超参数设置并应对非自回归收敛对实际应用的挑战,建立了 Adam 在非凸优化问题中的理论基础,包括精确定义自回归和非自回归收敛、对非自回归收敛的优势强调、可松弛选择超参数的弱充分条件确保自回归收敛、实现了 Adam 的近似确定自回归收敛速率,以及在 Polyak-Lojasiewicz (PL) 条件下函数值的非自回归收敛率。
本文研究一类自适应梯度基于动量的算法,这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型,研究了一些充分条件,保证了这些方法在解决非凸优化问题时的收敛性,为训练深度神经网络提供了理论支持。另外,文中提出了一类(确定性)增量自适应梯度算法,收敛速度与 Adam 类型算法相同,可以应用于更广泛的机器学习和优化问题。
Adam 是一种用于基于梯度的随机目标函数优化的算法,它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少,在对梯度进行对角重缩放时不变,并且非常适合在数据和 / 或参数方面比较大的问题。此外,它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释,并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好,并且与其他随机优化方法相比具有优势。此外,还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外,我们还分析了该算法的理论收敛性质,并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。