May, 2019
使用逐层自适应动量的随机梯度方法用于深度神经网络的训练
Stochastic Gradient Methods with Layer-wise Adaptive Moments for
Training of Deep Networks
TL;DR本文提出了一种自适应随机梯度下降算法NovoGrad,具有分层梯度归一化和分离的权重衰减,模型在图像分类、语音识别、机器翻译和语言模型等领域中的表现优于标准的随机梯度下降算法SGD与Adam(优化算法),同时具有较好的鲁棒性、适用于大批量的训练,并且更省内存。