Feb, 2019

具有动态学习率上界的自适应梯度方法

TL;DR本文提出了AdaBound和AMSBound两种新型变体算法,通过采用动态的学习率边界来实现自适应方法与SGD方法之间的平稳过渡,证明了它们的收敛性,并在各种任务和模型上进行了充分的实验,结果表明这两种方法可以消除自适应方法与SGD之间的“普适-泛化”差距,同时在训练初期保持更高的学习速度和取得显著的改进表现。