Apr, 2020

AdaX: 指数长期记忆的自适应梯度下降

TL;DR本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值,为解决这一问题,我们提出了 AdaX 算法,与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息,实现自适应调节学习率,同时本文也证明了 AdaX 算法在凸性和非凸性情景下均能收敛,实验结果表明 AdaX 在计算机视觉和自然语言处理等多个任务上的表现优于 Adam,且能够与随机梯度下降 (SGD) 保持一致。