Dec, 2020
灾难性费舍尔爆炸:早期阶段费舍尔矩阵影响泛化
Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts Generalization
Stanislaw Jastrzebski, Devansh Arpit, Oliver Astrand, Giancarlo Kerg, Huan Wang...
TL;DR深度神经网络训练初期对损失函数的局部曲率有巨大影响。随机梯度下降(SGD)在训练早期隐含地惩罚了 Fisher 信息矩阵的迹,并且这种隐式的正则化方法会显著提高泛化能力。