Nov, 2023

神经网络权重矩阵的 Hessian 特征向量和主成分分析

TL;DR该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现,训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,我们解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性,该关系取决于特征值的大小,使我们能够识别网络内的参数方向。此外,通过奇异值分解,我们对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。此外,我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性,特别是更大的特征值更集中在深层。最后,基于我们的发现,我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战,通过应用我们的发现,我们提出了一种有效的策略来缓解这种遗忘,这个策略可以适用于不同规模的网络,包括更大的架构。