神经网络权重矩阵的 Hessian 特征向量和主成分分析

Nov, 2023

神经网络权重矩阵的 Hessian 特征向量和主成分分析

Hessian Eigenvectors and Principal Component Analysis of Neural Network Weight Matrices

David Haink

TL;DR该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现，训练网络往往沿着单一方向进行训练，被称为漂移模式。通过损失函数的二次势模型，我们解释了这种漂移模式，并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性，该关系取决于特征值的大小，使我们能够识别网络内的参数方向。此外，通过奇异值分解，我们对权重矩阵进行了分解，以实用的方式识别 Hessian 内的关键方向，同时考虑其大小和曲率。此外，我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性，特别是更大的特征值更集中在深层。最后，基于我们的发现，我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战，通过应用我们的发现，我们提出了一种有效的策略来缓解这种遗忘，这个策略可以适用于不同规模的网络，包括更大的架构。

Abstract

This study delves into the intricate dynamics of trained deep neural networks and their relationships with network parameters. Trained networks predominantly continue training in a single direction, known as the drift m

trained deep neural networks drift mode hessian eigenvectors curvature of potential wells catastrophic forgetting

发现论文，激发创造

利用海森矩阵特征值密度研究神经网络优化

研究优化过程中深度神经网络中 Hessian 谱的演化对动力学的影响，发现对于非批归一化网络，谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度，而批归一化网络中这两种效应几乎不存在。

Jan, 2019

深度神经网络中海森矩阵的负特征值

本文通过对深度网络的黑塞矩阵的特征值分解研究深度网络的损失地形，特别关注负特征值的重要性及其适当处理的益处。

Feb, 2019

解剖 Hessian：理解神经网络中 Hessian 的共同结构

本论文探讨了神经网络的 Loss Surface 的 Hessian 特性，提出了层级 Hessian 的分解假设，分析了这些小矩阵的特性并证明了随机 2 层神经网络的前几个特征空间结构，同时讨论了不同模型的前 k 个特征空间有非常高的重叠性，并得到了更好的神经网络显式推导一般化界限。

Oct, 2020

深入研究深度神经网络的 Hessian 特征谱及其在正则化方面的应用

通过研究每层的 Hessian eigenspectrum，提出了一种基于 Hessian trace 的新的正则化方法，可以间接地迫使 Stochastic Gradient Descent 收敛到更平的最小值，从而提高了深学习模型的泛化性能。

Dec, 2020

超参数神经网络海森矩阵的实证分析

我们研究了常见损失曲面的性质，并针对深度学习，通过 Hessian 矩阵的谱将其分为两个部分，并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义，并提出了新的基于超参数冗余的几何角度视角。

Jun, 2017

协同协方差和海森矩阵的特征分析以提高二分类效果

一种新方法将训练集上评估的协方差矩阵的特征分解与在深度学习模型上评估的 Hessian 矩阵相结合，实现了二分类任务中的最优类别可分性，通过投影数据到两个矩阵的最相关特征方向组合空间，优化类别可分性，实验证明我们的方法胜过传统方法，同时突出处理线性判别分析标准。

Feb, 2024

神经网络海森矩阵图的结构和排名的分析洞见

本研究通过开发理论工具来分析 Hessian 映射的范围，提供了深度线性网络 Hessian 级别的确切公式和紧密的上限，以及其冗余程度的原因，从而深入探究了过参数化网络中冗余的来源和程度。

Jun, 2021

数据会在深度学习中引起容量控制吗？

通过对分类数据集进行研究，我们发现输入相关矩阵的特征值谱具有指数级范围的均匀分布特征，这种结构体现在训练出的网络的 Hessian 矩阵和 Fisher 信息矩阵的特征值谱中，我们称这种特征值谱为 “懒散”，我们还发现非懒散的训练集可能导致深度学习模型泛化性能降低，最后我们提出一种基于这个发现的数据分布依赖型 PAC-Bayes 先验，可以实现准确的泛化边界估计。

Oct, 2021

Hessian 视角下的卷积神经网络本质

本文通过 Hessian maps 的视角提出一种略微不同的卷积神经网络 (CNNs) 自然观点，从而揭示了 CNNs 的架构特征在其结构和性能中的表现；我们在 Toeplitz 表示的基础上，利用一种新的框架揭示了 Hessian 结构及其秩。我们证明了紧的上界，这些结果与 Hessian rank 的实际趋势紧密相似。总体而言，我们的工作推广了并且确立了一个关键性结论，即在卷积神经网络中，Hessian rank 随着参数数量的增加呈现出平方根增长趋势。

May, 2023

高维随机梯度下降与新兴异常特征空间的对齐

通过随机梯度下降（SGD）和经验 Hessian 和梯度矩阵的谱的联合演化，我们严格地研究了训练动态的联合演化。我们证明，在多类高维混合和单层或两层神经网络的两个典型分类任务中，SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外，在多层设置中，这种对齐是逐层进行的，最后一层的异常特征空间在训练过程中发生变化，并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。

Oct, 2023