Jan, 2022

损失函数中存在奇异点

TL;DR通过实验证明,随着数据集的规模增大,损失梯度的大小会形成一个奇点,梯度下降算法将迅速将神经网络接近该奇点,并且进一步的训练发生在该奇点附近。该奇点解释了神经网络损失函数 Hessian 矩阵的各种现象,如在稳定性的边缘进行训练和梯度在顶部子空间中的集中。一旦神经网络接近奇点,顶部子空间对学习的贡献很小,即使它构成了大部分梯度。