Dec, 2023

AdamL:一种快速自适应梯度方法,融合损失函数

TL;DR通过考虑损失函数信息以获得更好的泛化结果,我们提出了一种 AdamL 优化算法,该算法是 Adam 优化器的一种新变体。我们提供了足够的条件,以及 Polyak-Lojasiewicz 不等式,确保了 AdamL 的线性收敛性。与此分析的副产品,我们还证明了 EAdam 和 AdaBelief 优化器具有类似的收敛性质。基准函数上的实验结果表明,与 Adam、EAdam 和 AdaBelief 相比,AdamL 通常实现了最快的收敛速度或最低的目标函数值。当考虑到深度学习任务时,如训练卷积神经网络、使用普通卷积神经网络训练生成对抗网络以及长短时记忆网络,这些卓越的性能得到了证实。最后,在普通卷积神经网络的情况下,AdamL 优于其他 Adam 的变体,并且在训练的后期阶段不需要手动调整学习率。