利用海森矩阵特征值密度研究神经网络优化
我们研究了常见损失曲面的性质,并针对深度学习,通过 Hessian 矩阵的谱将其分为两个部分,并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
通过研究每层的 Hessian eigenspectrum,提出了一种基于 Hessian trace 的新的正则化方法,可以间接地迫使 Stochastic Gradient Descent 收敛到更平的最小值,从而提高了深学习模型的泛化性能。
Dec, 2020
该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现,训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,我们解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性,该关系取决于特征值的大小,使我们能够识别网络内的参数方向。此外,通过奇异值分解,我们对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。此外,我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性,特别是更大的特征值更集中在深层。最后,基于我们的发现,我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战,通过应用我们的发现,我们提出了一种有效的策略来缓解这种遗忘,这个策略可以适用于不同规模的网络,包括更大的架构。
Nov, 2023
本文研究了损失函数的海森矩阵特征值在训练前后的分布情况,发现其主要由分布在零附近的 bulk 和分布远离零的 edges 两部分组成,bulk 部分实验证明了系统的超参数问题,而 edges 部分则与输入数据相关。
Nov, 2016
通过随机梯度下降(SGD)和经验 Hessian 和梯度矩阵的谱的联合演化,我们严格地研究了训练动态的联合演化。我们证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外,在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化,并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
Oct, 2023
使用最先进的高维数值线性代数工具来有效近似现代深度学习网络巨大参数空间上的 Hessian 谱,研究发现该 Hessian 具有 “尖峰” 行为,同时分别分析各项的训练动态和样本大小变化情况。
Nov, 2018
在全批量情况下,训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量的情况下与神经切线核的迹有关,而不是大的 Hessian 特征值。我们进行了实验研究,突出了与全批量现象的定性差异,并表明控制随机稳定边界可以帮助优化。
Apr, 2024
我们提出了 PYHESSIAN 框架,它可以快速计算深度神经网络的 Hessian 信息,支持分布式计算,并且可以用于分析神经网络模型,特别是损失函数曲率(即损失函数的拓扑),以便更好的理解不同模型和优化器的行为表现。通过对残差连接和 BN 层的分析,我们发现传统的方法不一定正确,BN 层不一定会使得损失函数曲率更加平滑,特别是在较浅的神经网络中。
Dec, 2019
本研究通过开发理论工具来分析 Hessian 映射的范围,提供了深度线性网络 Hessian 级别的确切公式和紧密的上限,以及其冗余程度的原因,从而深入探究了过参数化网络中冗余的来源和程度。
Jun, 2021