深度神经网络中海森矩阵的负特征值
研究优化过程中深度神经网络中 Hessian 谱的演化对动力学的影响,发现对于非批归一化网络,谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度,而批归一化网络中这两种效应几乎不存在。
Jan, 2019
通过研究每层的 Hessian eigenspectrum,提出了一种基于 Hessian trace 的新的正则化方法,可以间接地迫使 Stochastic Gradient Descent 收敛到更平的最小值,从而提高了深学习模型的泛化性能。
Dec, 2020
本文研究了损失函数的海森矩阵特征值在训练前后的分布情况,发现其主要由分布在零附近的 bulk 和分布远离零的 edges 两部分组成,bulk 部分实验证明了系统的超参数问题,而 edges 部分则与输入数据相关。
Nov, 2016
该研究探讨了训练深度神经网络及其与网络参数之间的复杂动力学关系。通过研究我们发现,训练网络往往沿着单一方向进行训练,被称为漂移模式。通过损失函数的二次势模型,我们解释了这种漂移模式,并提出其向潜在值的指数级缓慢衰减。我们揭示了 Hessian 特征向量与网络权重之间的相关性,该关系取决于特征值的大小,使我们能够识别网络内的参数方向。此外,通过奇异值分解,我们对权重矩阵进行了分解,以实用的方式识别 Hessian 内的关键方向,同时考虑其大小和曲率。此外,我们还发现了各层最大的 Hessian 特征值与整个网络之间的相似性,特别是更大的特征值更集中在深层。最后,基于我们的发现,我们探索了解决神经网络在学习新任务时遗忘之前任务知识的挑战,通过应用我们的发现,我们提出了一种有效的策略来缓解这种遗忘,这个策略可以适用于不同规模的网络,包括更大的架构。
Nov, 2023
我们研究了常见损失曲面的性质,并针对深度学习,通过 Hessian 矩阵的谱将其分为两个部分,并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
本研究探讨了当经验风险为弱凸函数时,梯度下降的学习性能,并通过将最小负特征值应用于控制梯度下降的稳定性,从而证明了与先前的研究相比,其持有更广范围步长的一般化误差界。当经验风险满足局部弱凸性时,可以通过对网络进行归一化来控制误差,其中,两层神经网络的经验风险可以满足局部弱凸性。通过权衡网络复杂度和缩放,深入探讨了神经网络缩放的隐式偏差,并得出实验结果的支持。
Jan, 2021
本论文探讨了神经网络的 Loss Surface 的 Hessian 特性,提出了层级 Hessian 的分解假设,分析了这些小矩阵的特性并证明了随机 2 层神经网络的前几个特征空间结构,同时讨论了不同模型的前 k 个特征空间有非常高的重叠性,并得到了更好的神经网络显式推导一般化界限。
Oct, 2020
本文探讨了时下最先进神经网络的损失函数,以及常用随机梯度下降变体如何优化这些损失函数,探讨中发现每个优化算法在鞍点处会做出不同的选择,从而得出每个算法在鞍点处的特征选择假设。
Dec, 2016
本文通过 Hessian maps 的视角提出一种略微不同的卷积神经网络 (CNNs) 自然观点,从而揭示了 CNNs 的架构特征在其结构和性能中的表现;我们在 Toeplitz 表示的基础上,利用一种新的框架揭示了 Hessian 结构及其秩。我们证明了紧的上界,这些结果与 Hessian rank 的实际趋势紧密相似。总体而言,我们的工作推广了并且确立了一个关键性结论,即在卷积神经网络中,Hessian rank 随着参数数量的增加呈现出平方根增长趋势。
May, 2023