神经网络海森矩阵图的结构和排名的分析洞见

Jun, 2021

神经网络海森矩阵图的结构和排名的分析洞见

Analytic Insights into Structure and Rank of Neural Network Hessian Maps

Sidak Pal Singh, Gregor Bachmann, Thomas Hofmann

TL;DR本研究通过开发理论工具来分析 Hessian 映射的范围，提供了深度线性网络 Hessian 级别的确切公式和紧密的上限，以及其冗余程度的原因，从而深入探究了过参数化网络中冗余的来源和程度。

Abstract

The hessian of a neural network captures parameter interactions through second-order derivatives of the loss. It is a fundamental object of study, closely tied to various problems in →

neural network hessian deep learning rank deficiency overparameterized networks

发现论文，激发创造

Hessian 视角下的卷积神经网络本质

本文通过 Hessian maps 的视角提出一种略微不同的卷积神经网络 (CNNs) 自然观点，从而揭示了 CNNs 的架构特征在其结构和性能中的表现；我们在 Toeplitz 表示的基础上，利用一种新的框架揭示了 Hessian 结构及其秩。我们证明了紧的上界，这些结果与 Hessian rank 的实际趋势紧密相似。总体而言，我们的工作推广了并且确立了一个关键性结论，即在卷积神经网络中，Hessian rank 随着参数数量的增加呈现出平方根增长趋势。

May, 2023

解剖 Hessian：理解神经网络中 Hessian 的共同结构

本论文探讨了神经网络的 Loss Surface 的 Hessian 特性，提出了层级 Hessian 的分解假设，分析了这些小矩阵的特性并证明了随机 2 层神经网络的前几个特征空间结构，同时讨论了不同模型的前 k 个特征空间有非常高的重叠性，并得到了更好的神经网络显式推导一般化界限。

Oct, 2020

超参数神经网络海森矩阵的实证分析

我们研究了常见损失曲面的性质，并针对深度学习，通过 Hessian 矩阵的谱将其分为两个部分，并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义，并提出了新的基于超参数冗余的几何角度视角。

Jun, 2017

PyHessian：基于 Hessian 的神经网络

我们提出了 PYHESSIAN 框架，它可以快速计算深度神经网络的 Hessian 信息，支持分布式计算，并且可以用于分析神经网络模型，特别是损失函数曲率（即损失函数的拓扑），以便更好的理解不同模型和优化器的行为表现。通过对残差连接和 BN 层的分析，我们发现传统的方法不一定正确，BN 层不一定会使得损失函数曲率更加平滑，特别是在较浅的神经网络中。

Dec, 2019

利用海森矩阵特征值密度研究神经网络优化

研究优化过程中深度神经网络中 Hessian 谱的演化对动力学的影响，发现对于非批归一化网络，谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度，而批归一化网络中这两种效应几乎不存在。

Jan, 2019

深度学习解释中高阶损失逼近和特征的影响理解

本研究探讨了在深度学习的解释中，损失函数的 Hessian 矩阵和高阶项，以及特征间的依赖性对解释的影响，并通过实验验证了对组特征进行加权考虑可以显著提高解释的准确性。

Feb, 2019

深度神经网络 Hessian 谱中离群点的三层分层结构测量

通过对参数与模型 logits 导数结构的研究，我们发现了导致 Hessian 特异值异常的二阶矩矩阵结构，该结构可以通过平均操作来近似 Hessian 的主子空间，避免高维特征值分析的需求。

Jan, 2019

深度神经网络中海森矩阵的负特征值

本文通过对深度网络的黑塞矩阵的特征值分解研究深度网络的损失地形，特别关注负特征值的重要性及其适当处理的益处。

Feb, 2019

神经网络权重矩阵的 Hessian 特征向量和主成分分析

该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现，训练网络往往沿着单一方向进行训练，被称为漂移模式。通过损失函数的二次势模型，我们解释了这种漂移模式，并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性，该关系取决于特征值的大小，使我们能够识别网络内的参数方向。此外，通过奇异值分解，我们对权重矩阵进行了分解，以实用的方式识别 Hessian 内的关键方向，同时考虑其大小和曲率。此外，我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性，特别是更大的特征值更集中在深层。最后，基于我们的发现，我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战，通过应用我们的发现，我们提出了一种有效的策略来缓解这种遗忘，这个策略可以适用于不同规模的网络，包括更大的架构。

Nov, 2023

深入研究深度神经网络的 Hessian 特征谱及其在正则化方面的应用

通过研究每层的 Hessian eigenspectrum，提出了一种基于 Hessian trace 的新的正则化方法，可以间接地迫使 Stochastic Gradient Descent 收敛到更平的最小值，从而提高了深学习模型的泛化性能。

Dec, 2020