May, 2018
怀旧的 Adam: 在设计自适应学习率时更注重过去时刻的梯度加权
Nostalgic Adam: Weighting more of the past gradients when designing the adaptive learning rate
Haiwen Huang, Chang Wang, Bin Dong
TL;DR我们提出了一种称为 Nostalgic Adam(NosAdam)的算法,通过更多考虑过去的梯度并设计自适应学习率,解决了类似于 Adam 的算法中缺乏长期记忆的问题,并在最佳已知收敛率下具有理论上的收敛保证。