Feb, 2020

动量算法改进归一化随机梯度下降

TL;DR本研究提出使用 momentum 相对于 normalized SGD 来解决 non-convex issues,若 objectives 带有有限的第二导数,采用带的动量公式提高了收敛速度,且适用于大规模任务如 ResNet-50 和 BERT pretraining。