May, 2024

深刻理解:深度神经网络是否能更好地泛化?

TL;DR通过深度神经网络的研究,我们发现 grokking 现象对于深层网络更为敏感,且特征排名的减少与过拟合到泛化阶段的相变存在关联,特征排名可能比权重范数更能指示模型的泛化行为。