深度神经网络中海森矩阵的负特征值

Feb, 2019

深度神经网络中海森矩阵的负特征值

Negative eigenvalues of the Hessian in deep neural networks

Guillaume Alain, Nicolas Le Roux, Pierre-Antoine Manzagol

TL;DR本文通过对深度网络的黑塞矩阵的特征值分解研究深度网络的损失地形，特别关注负特征值的重要性及其适当处理的益处。

Abstract

The loss function of deep networks is known to be non-convex but the precise nature of this nonconvexity is still an active area of research. In this work, we study the loss landscape of →

deep networks loss landscape non-convexity hessian matrix negative eigenvalues

发现论文，激发创造

利用海森矩阵特征值密度研究神经网络优化

研究优化过程中深度神经网络中 Hessian 谱的演化对动力学的影响，发现对于非批归一化网络，谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度，而批归一化网络中这两种效应几乎不存在。

Jan, 2019

深入研究深度神经网络的 Hessian 特征谱及其在正则化方面的应用

通过研究每层的 Hessian eigenspectrum，提出了一种基于 Hessian trace 的新的正则化方法，可以间接地迫使 Stochastic Gradient Descent 收敛到更平的最小值，从而提高了深学习模型的泛化性能。

Dec, 2020

深度学习中的 Hessian 矩阵特征值：奇异性与超出

本文研究了损失函数的海森矩阵特征值在训练前后的分布情况，发现其主要由分布在零附近的 bulk 和分布远离零的 edges 两部分组成，bulk 部分实验证明了系统的超参数问题，而 edges 部分则与输入数据相关。

Nov, 2016

神经网络权重矩阵的 Hessian 特征向量和主成分分析

该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现，训练网络往往沿着单一方向进行训练，被称为漂移模式。通过损失函数的二次势模型，我们解释了这种漂移模式，并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性，该关系取决于特征值的大小，使我们能够识别网络内的参数方向。此外，通过奇异值分解，我们对权重矩阵进行了分解，以实用的方式识别 Hessian 内的关键方向，同时考虑其大小和曲率。此外，我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性，特别是更大的特征值更集中在深层。最后，基于我们的发现，我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战，通过应用我们的发现，我们提出了一种有效的策略来缓解这种遗忘，这个策略可以适用于不同规模的网络，包括更大的架构。

Nov, 2023

超参数神经网络海森矩阵的实证分析

我们研究了常见损失曲面的性质，并针对深度学习，通过 Hessian 矩阵的谱将其分为两个部分，并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义，并提出了新的基于超参数冗余的几何角度视角。

Jun, 2017

使用梯度下降和弱凸损失进行学习

本研究探讨了当经验风险为弱凸函数时，梯度下降的学习性能，并通过将最小负特征值应用于控制梯度下降的稳定性，从而证明了与先前的研究相比，其持有更广范围步长的一般化误差界。当经验风险满足局部弱凸性时，可以通过对网络进行归一化来控制误差，其中，两层神经网络的经验风险可以满足局部弱凸性。通过权衡网络复杂度和缩放，深入探讨了神经网络缩放的隐式偏差，并得出实验结果的支持。

Jan, 2021

解剖 Hessian：理解神经网络中 Hessian 的共同结构

本论文探讨了神经网络的 Loss Surface 的 Hessian 特性，提出了层级 Hessian 的分解假设，分析了这些小矩阵的特性并证明了随机 2 层神经网络的前几个特征空间结构，同时讨论了不同模型的前 k 个特征空间有非常高的重叠性，并得到了更好的神经网络显式推导一般化界限。

Oct, 2020

基于零特征值的损失函数训练深度神经网络

通过无需特征分解的方法，在计算机视觉和深度学习领域中解决了特征分解操作难以优化的问题，并在关键点匹配和姿态估计等任务中取得了最新的成果。

Mar, 2018

深度神经网络损失曲面优化的实证分析

本文探讨了时下最先进神经网络的损失函数，以及常用随机梯度下降变体如何优化这些损失函数，探讨中发现每个优化算法在鞍点处会做出不同的选择，从而得出每个算法在鞍点处的特征选择假设。

Dec, 2016

Hessian 视角下的卷积神经网络本质

本文通过 Hessian maps 的视角提出一种略微不同的卷积神经网络 (CNNs) 自然观点，从而揭示了 CNNs 的架构特征在其结构和性能中的表现；我们在 Toeplitz 表示的基础上，利用一种新的框架揭示了 Hessian 结构及其秩。我们证明了紧的上界，这些结果与 Hessian rank 的实际趋势紧密相似。总体而言，我们的工作推广了并且确立了一个关键性结论，即在卷积神经网络中，Hessian rank 随着参数数量的增加呈现出平方根增长趋势。

May, 2023