BriefGPT.xyz
Ask
alpha
关键词
adax
搜索结果 - 1
AdaX: 指数长期记忆的自适应梯度下降
本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值,为解决这一问题,我们提出了 AdaX 算法,与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息,实现自适应调节学习率,同时本文也证明了 AdaX 算法在凸
→
PDF
4 years ago
Prev
Next