Zhishuai Guo, Yi Xu, Wotao Yin, Rong Jin, Tianbao Yang
TL;DR本研究通过对 Adam 优化器家族进行分析,提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法,并证明了使用随机梯度估计器的方差减少结果。
Abstract
Since its invention in 2014, the adam optimizer has received tremendous
attention. On one hand, it has been widely used in deep learning and many
variants have been proposed, while on the other hand their theoret
本文研究一类自适应梯度基于动量的算法,这些算法同时使用过去的梯度更新搜索方向和学习率。该类算法被称为 Adam 类型,研究了一些充分条件,保证了这些方法在解决非凸优化问题时的收敛性,为训练深度神经网络提供了理论支持。另外,文中提出了一类(确定性)增量自适应梯度算法,收敛速度与 Adam 类型算法相同,可以应用于更广泛的机器学习和优化问题。
Adam 是一种用于基于梯度的随机目标函数优化的算法,它基于低阶矩的自适应估计。该算法易于实现、计算效率高、占用内存少,在对梯度进行对角重缩放时不变,并且非常适合在数据和 / 或参数方面比较大的问题。此外,它也适合于非平稳目标和存在噪声和 / 或稀疏梯度的问题。该算法的超参数具有直观解释,并且通常需要很少的调整。实证结果表明 Adam 在实践中效果良好,并且与其他随机优化方法相比具有优势。此外,还讨论了一种基于无穷范数的 Adam 变体 AdaMax。此外,我们还分析了该算法的理论收敛性质,并提供了一个和在线凸优化框架下已知最好的收敛速率相当的遗憾界。