ICMLMay, 2017

剖析 Adam:随机梯度的符号、大小和方差

TL;DR研究表明,ADAM 优化器在深度学习中非常流行,但是对于泛化效果差的问题,将方差适应应用到 SGD 中会出现一种新的方法。