深度学习中的 Hessian 矩阵特征值:奇异性与超出
我们研究了常见损失曲面的性质,并针对深度学习,通过 Hessian 矩阵的谱将其分为两个部分,并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
研究优化过程中深度神经网络中 Hessian 谱的演化对动力学的影响,发现对于非批归一化网络,谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度,而批归一化网络中这两种效应几乎不存在。
Jan, 2019
通过实验证明,随着数据集的规模增大,损失梯度的大小会形成一个奇点,梯度下降算法将迅速将神经网络接近该奇点,并且进一步的训练发生在该奇点附近。该奇点解释了神经网络损失函数 Hessian 矩阵的各种现象,如在稳定性的边缘进行训练和梯度在顶部子空间中的集中。一旦神经网络接近奇点,顶部子空间对学习的贡献很小,即使它构成了大部分梯度。
Jan, 2022
在全批量情况下,训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量的情况下与神经切线核的迹有关,而不是大的 Hessian 特征值。我们进行了实验研究,突出了与全批量现象的定性差异,并表明控制随机稳定边界可以帮助优化。
Apr, 2024
通过研究每层的 Hessian eigenspectrum,提出了一种基于 Hessian trace 的新的正则化方法,可以间接地迫使 Stochastic Gradient Descent 收敛到更平的最小值,从而提高了深学习模型的泛化性能。
Dec, 2020
通过随机梯度下降(SGD)和经验 Hessian 和梯度矩阵的谱的联合演化,我们严格地研究了训练动态的联合演化。我们证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外,在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化,并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
Oct, 2023
该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现,训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,我们解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性,该关系取决于特征值的大小,使我们能够识别网络内的参数方向。此外,通过奇异值分解,我们对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。此外,我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性,特别是更大的特征值更集中在深层。最后,基于我们的发现,我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战,通过应用我们的发现,我们提出了一种有效的策略来缓解这种遗忘,这个策略可以适用于不同规模的网络,包括更大的架构。
Nov, 2023
通过对分类数据集进行研究,我们发现输入相关矩阵的特征值谱具有指数级范围的均匀分布特征,这种结构体现在训练出的网络的 Hessian 矩阵和 Fisher 信息矩阵的特征值谱中,我们称这种特征值谱为 “懒散”,我们还发现非懒散的训练集可能导致深度学习模型泛化性能降低,最后我们提出一种基于这个发现的数据分布依赖型 PAC-Bayes 先验,可以实现准确的泛化边界估计。
Oct, 2021
使用最先进的高维数值线性代数工具来有效近似现代深度学习网络巨大参数空间上的 Hessian 谱,研究发现该 Hessian 具有 “尖峰” 行为,同时分别分析各项的训练动态和样本大小变化情况。
Nov, 2018