基于 Hessian 的大批量训练分析与对抗性鲁棒性
我们研究了常见损失曲面的性质,并针对深度学习,通过 Hessian 矩阵的谱将其分为两个部分,并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
通过实验观察 SGD 算法中学习率、batch size 和 momentum 三个重要超参数对神经网络训练精度及对抗鲁棒性的影响,并发现固定学习率和 batch size 比例的训练方式可以获得更好的泛化能力与保持较为稳定的抗干扰性能。
Jun, 2020
本文通过对训练损失函数的海森矩阵及其相关量的分析,探讨了随机梯度下降(SGD)的优化动态和泛化行为等三个问题,并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。
Jul, 2019
在全批量情况下,训练损失 Hessian 的大特征值动态具有某些显著稳定的特征。在随机设置中,特征值的增长速度较慢,我们称之为保守锐化。我们提供了一个简单的高维模型的理论分析来解释这种减速现象。我们还展示了随机稳定边界的替代解释,它在小批量的情况下与神经切线核的迹有关,而不是大的 Hessian 特征值。我们进行了实验研究,突出了与全批量现象的定性差异,并表明控制随机稳定边界可以帮助优化。
Apr, 2024
使用最先进的高维数值线性代数工具来有效近似现代深度学习网络巨大参数空间上的 Hessian 谱,研究发现该 Hessian 具有 “尖峰” 行为,同时分别分析各项的训练动态和样本大小变化情况。
Nov, 2018
研究优化过程中深度神经网络中 Hessian 谱的演化对动力学的影响,发现对于非批归一化网络,谱中的大量孤立特征值以及聚集在相应特征空间中的梯度的快速出现将影响优化速度,而批归一化网络中这两种效应几乎不存在。
Jan, 2019
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
Jul, 2023
通过随机梯度下降(SGD)和经验 Hessian 和梯度矩阵的谱的联合演化,我们严格地研究了训练动态的联合演化。我们证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外,在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化,并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
Oct, 2023
我们提出了 PYHESSIAN 框架,它可以快速计算深度神经网络的 Hessian 信息,支持分布式计算,并且可以用于分析神经网络模型,特别是损失函数曲率(即损失函数的拓扑),以便更好的理解不同模型和优化器的行为表现。通过对残差连接和 BN 层的分析,我们发现传统的方法不一定正确,BN 层不一定会使得损失函数曲率更加平滑,特别是在较浅的神经网络中。
Dec, 2019
通过实验证明,随着数据集的规模增大,损失梯度的大小会形成一个奇点,梯度下降算法将迅速将神经网络接近该奇点,并且进一步的训练发生在该奇点附近。该奇点解释了神经网络损失函数 Hessian 矩阵的各种现象,如在稳定性的边缘进行训练和梯度在顶部子空间中的集中。一旦神经网络接近奇点,顶部子空间对学习的贡献很小,即使它构成了大部分梯度。
Jan, 2022