Feb, 2021

GradInit:学习为稳定和高效的训练初始化神经网络

TL;DR本文提出了一种基于 SGD 或 Adam 的预设超参数使得每个网络层的范数调整到最小损失值下的简单启发式算法 GradInit,旨在加速卷积结构和 Transformer 等神经网络模型的收敛和测试效果,而且还能提高模型训练的稳定性。