May, 2019

使用逐层自适应动量的随机梯度方法用于深度神经网络的训练

TL;DR本文提出了一种自适应随机梯度下降算法 NovoGrad,具有分层梯度归一化和分离的权重衰减,模型在图像分类、语音识别、机器翻译和语言模型等领域中的表现优于标准的随机梯度下降算法 SGD 与 Adam(优化算法),同时具有较好的鲁棒性、适用于大批量的训练,并且更省内存。