通过关键动量促进记忆增量 Adam 中的探索
该论文提出了一种基于行和列之和的移动平均数的方法,用于估计神经网络权重矩阵的参数,并解决了自适应方法在更新时产生的过大更新的问题。该方法能够在很少的辅助存储空间中达到与 Adam 默认规则相当的结果。
Apr, 2018
本文发现 Adam 算法的快速收敛可能会导致算法陷入局部极小值,为解决这一问题,我们提出了 AdaX 算法,与 Adam 不同之处在于 AdaX 能够在训练过程中积累过去的梯度信息,实现自适应调节学习率,同时本文也证明了 AdaX 算法在凸性和非凸性情景下均能收敛,实验结果表明 AdaX 在计算机视觉和自然语言处理等多个任务上的表现优于 Adam,且能够与随机梯度下降 (SGD) 保持一致。
Apr, 2020
本研究设计了一个新算法,称为部分自适应动量估计方法,通过引入部分自适应参数 $p$,将 Adam/Amsgrad 与 SGD 统一起来,以实现从两个世界中获得最佳结果,并在随机非凸优化设置下证明了我们提出的算法的收敛速度。实验结果表明,与 SGD 一样,我们的算法可以在训练深度神经网络时维持快速的收敛率,并且可以像 Adam/Amsgrad 一样进行泛化,这些结果表明从此前的研究中看出,重视使用自适应梯度方法可以有效加速深度神经网络的训练。
Jun, 2018
本研究提出了 Meta-Adaptive Optimizers(MADA),一个统一的优化器框架,它能够泛化多种已知的优化器,并在训练过程中动态学习最合适的优化器。数值结果表明,MADA 对亚优化的超参数具有鲁棒性,并且即使在调优超参数的情况下,它通常优于 Adam、Lion 和 Adan。同时,我们还提出了 AVGrad,它是 AMSGrad 的一种变体,在 MADA 中表现更好。最后,我们提供了收敛性分析,显示优化器的插值(特别是 AVGrad 和 Adam)可以改善它们的误差界限(在常数上),暗示了元优化器的优势。
Jan, 2024
本文提出了 AdaMod 方法来限制 Adam 方法中出现的极端学习率问题,实现深度神经网络的稳定而高效训练,对于复杂网络,如 DenseNet 和 Transformer,与 Adam 方法相比,AdaMod 方法带来了显著的改进。
Oct, 2019
我们提出了一种称为 Nostalgic Adam(NosAdam)的算法,通过更多考虑过去的梯度并设计自适应学习率,解决了类似于 Adam 的算法中缺乏长期记忆的问题,并在最佳已知收敛率下具有理论上的收敛保证。
May, 2018