May, 2018

怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权

TL;DR我们提出了一种称为 Nostalgic Adam(NosAdam)的算法,通过更多考虑过去的梯度并设计自适应学习率,解决了类似于 Adam 的算法中缺乏长期记忆的问题,并在最佳已知收敛率下具有理论上的收敛保证。