神经网络海森矩阵图的结构和排名的分析洞见
本文通过 Hessian maps 的视角提出一种略微不同的卷积神经网络 (CNNs) 自然观点,从而揭示了 CNNs 的架构特征在其结构和性能中的表现;我们在 Toeplitz 表示的基础上,利用一种新的框架揭示了 Hessian 结构及其秩。我们证明了紧的上界,这些结果与 Hessian rank 的实际趋势紧密相似。总体而言,我们的工作推广了并且确立了一个关键性结论,即在卷积神经网络中,Hessian rank 随着参数数量的增加呈现出平方根增长趋势。
May, 2023
本论文探讨了神经网络的 Loss Surface 的 Hessian 特性,提出了层级 Hessian 的分解假设,分析了这些小矩阵的特性并证明了随机 2 层神经网络的前几个特征空间结构,同时讨论了不同模型的前 k 个特征空间有非常高的重叠性,并得到了更好的神经网络显式推导一般化界限。
Oct, 2020
我们研究了常见损失曲面的性质,并针对深度学习,通过 Hessian 矩阵的谱将其分为两个部分,并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
我们提出了 PYHESSIAN 框架,它可以快速计算深度神经网络的 Hessian 信息,支持分布式计算,并且可以用于分析神经网络模型,特别是损失函数曲率(即损失函数的拓扑),以便更好的理解不同模型和优化器的行为表现。通过对残差连接和 BN 层的分析,我们发现传统的方法不一定正确,BN 层不一定会使得损失函数曲率更加平滑,特别是在较浅的神经网络中。
Dec, 2019
研究优化过程中深度神经网络中 Hessian 谱的演化对动力学的影响,发现对于非批归一化网络,谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度,而批归一化网络中这两种效应几乎不存在。
Jan, 2019
本研究探讨了在深度学习的解释中,损失函数的 Hessian 矩阵和高阶项,以及特征间的依赖性对解释的影响,并通过实验验证了对组特征进行加权考虑可以显著提高解释的准确性。
Feb, 2019
通过对参数与模型 logits 导数结构的研究,我们发现了导致 Hessian 特异值异常的二阶矩矩阵结构,该结构可以通过平均操作来近似 Hessian 的主子空间,避免高维特征值分析的需求。
Jan, 2019
该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现,训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,我们解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性,该关系取决于特征值的大小,使我们能够识别网络内的参数方向。此外,通过奇异值分解,我们对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。此外,我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性,特别是更大的特征值更集中在深层。最后,基于我们的发现,我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战,通过应用我们的发现,我们提出了一种有效的策略来缓解这种遗忘,这个策略可以适用于不同规模的网络,包括更大的架构。
Nov, 2023
通过研究每层的 Hessian eigenspectrum,提出了一种基于 Hessian trace 的新的正则化方法,可以间接地迫使 Stochastic Gradient Descent 收敛到更平的最小值,从而提高了深学习模型的泛化性能。
Dec, 2020