Jun, 2018
自适应梯度方法训练深度神经网络中泛化缺口的解决
Closing the Generalization Gap of Adaptive Gradient Methods in Training
Deep Neural Networks
TL;DR本研究设计了一个新算法,称为部分自适应动量估计方法,通过引入部分自适应参数$p$,将Adam/Amsgrad与SGD统一起来,以实现从两个世界中获得最佳结果,并在随机非凸优化设置下证明了我们提出的算法的收敛速度。实验结果表明,与SGD一样,我们的算法可以在训练深度神经网络时维持快速的收敛率,并且可以像Adam/Amsgrad一样进行泛化,这些结果表明从此前的研究中看出,重视使用自适应梯度方法可以有效加速深度神经网络的训练。