Dec, 2020

灾难性费舍尔爆炸:早期阶段费舍尔矩阵影响泛化

TL;DR深度神经网络训练初期对损失函数的局部曲率有巨大影响。随机梯度下降(SGD)在训练早期隐含地惩罚了 Fisher 信息矩阵的迹,并且这种隐式的正则化方法会显著提高泛化能力。