Aug, 2018

统一动量的加权AdaGrad算法

TL;DR通过引入重加权AdaGrad联合动量,AdaUSM在解决难以收敛的随机问题时,其带权高斯平均符合实时梯度下降法 (SGD) 和AdaGrad的学习率下降速度,同时还能实现SGD动量和Nesterov学习率全方位的整合。