IJCAIJun, 2018

自适应梯度方法训练深度神经网络中泛化缺口的解决

TL;DR本研究设计了一个新算法,称为部分自适应动量估计方法,通过引入部分自适应参数 $p$,将 Adam/Amsgrad 与 SGD 统一起来,以实现从两个世界中获得最佳结果,并在随机非凸优化设置下证明了我们提出的算法的收敛速度。实验结果表明,与 SGD 一样,我们的算法可以在训练深度神经网络时维持快速的收敛率,并且可以像 Adam/Amsgrad 一样进行泛化,这些结果表明从此前的研究中看出,重视使用自适应梯度方法可以有效加速深度神经网络的训练。