深度学习解释中高阶损失逼近和特征的影响理解
本研究通过开发理论工具来分析 Hessian 映射的范围,提供了深度线性网络 Hessian 级别的确切公式和紧密的上限,以及其冗余程度的原因,从而深入探究了过参数化网络中冗余的来源和程度。
Jun, 2021
本论文探究了损失海森矩阵在多项分类任务中的演化,以了解损失曲率对训练动态的影响。结果表明,成功的模型和超参数选择能够使早期的优化轨迹避免或穿越高曲率区域并进入扁平区域,提高学习率稳定性,类似于各种训练不稳定性缓解策略最终解决神经网络优化的相同失效模式,即差的条件。
Oct, 2021
本文提出了一种衡量深度神经网络特征重要性估计的近似准确性的经验方法,研究发现,在许多流行的可解释性方法中,只有某些集成方法,如 VarGrad 和 SmoothGrad-Squared,才能胜任随机指定特征重要性的任务。
Jun, 2018
最近的研究表明,诸如 SAM 之类的方法能够明确或隐含地对二阶信息进行惩罚,从而提高深度学习的泛化能力。然而,权重噪声和梯度惩罚等看似类似的方法通常无法提供这样的好处。本文通过损失函数的海塞矩阵结构展示了这些差异可以得到解释。首先,我们展示了海塞矩阵的一个常见分解可以定量解释特征的利用和探索。探索特征可以由非线性建模误差矩阵 (NME) 来描述,在插值时通常被文献中忽略。我们的工作表明,NME 实际上是重要的,因为它可以解释为什么梯度惩罚对激活函数的选择敏感。利用这一洞见,我们设计了改进性能的干预措施。我们还提供证据挑战了长期以来权重噪声和梯度惩罚的等价性。这种等价性依赖于可以忽略 NME 的假设,但我们发现这一假设对于现代网络并不成立,因为它们涉及显著的特征学习。我们发现,正则化特征的利用而不是探索能够获得与梯度惩罚相似的性能。
Jan, 2024
我们研究了常见损失曲面的性质,并针对深度学习,通过 Hessian 矩阵的谱将其分为两个部分,并证明了 Sagun 等人所述的猜想。我们的观察结果对高维度的非凸优化具有重要意义,并提出了新的基于超参数冗余的几何角度视角。
Jun, 2017
在数据中心学习的经典情境下,通过分析和解决模型上的凸性假设和计算逆 Hessian 矩阵的计算成本的限制,建立了通过影响函数和异常梯度检测来识别有害训练样本的等价转换,从而扩展了影响函数的适用性,使其能够应用于非凸深度模型,并通过系统性实证评估验证了这一方法在不同任务中的有效性。
May, 2024
本文提出了一种新的输入无关的显著性地图方法,它从计算上估计模型对其输出所归属的高级特征并通过可解释的可视化展示,以更加准确和公正地解释模型的行为,同时在大规模模型中成功应用,并且通过识别受损分类器中的后门签名,展示了这种新形式显著性映射的另一个有趣的用途。
Mar, 2023
我们提出了一种新的方法来理解深度学习中损失曲率和泛化之间的关系,特别地,我们使用深度网络损失 Hessian 频谱的现有经验分析来基于一个猜想将深度神经网络的损失 Hessian 和输入输出 Jacobian 联系在一起。我们证明了一系列理论结果,这些结果量化了模型的输入输出 Jacobian 在数据分布上近似其 Lipschitz 范数的程度,并在经验 Jacobian 的术语中推导出一个新的泛化界限。我们使用我们的猜想以及我们的理论结果来提供一个关于最近观察到的渐进锐化现象以及平坦极小值的泛化特性的新解释。我们提供了实验证据来验证我们的论点。
May, 2023
现代深度神经网络在各种任务中取得了高性能,研究人员最近注意到这些网络的权重、Hessian 矩阵、梯度和特征向量中存在低维结构,这种低维结构在不同的数据集和架构上进行训练时都能观察到。在本文中,我们在理论上证明了这些观察结果的发生,并展示了如何在一个可以被分析地考虑的广义非约束特征模型中统一这些观察结果。特别地,我们考虑了一种先前描述的结构,称为神经坍缩,以及它的多层对应物,即深度神经坍缩,在网络接近全局最优解时出现。这种现象解释了观察到的其他低维行为,比如在 Hessian 谱中观察到的批量和离群结构,以及梯度下降与 Hessian 的离群特征空间的对齐。深度线性非约束特征模型及其非线性等效模型的经验结果支持了这些预测的观察结果。
Apr, 2024
本文通过 Hessian maps 的视角提出一种略微不同的卷积神经网络 (CNNs) 自然观点,从而揭示了 CNNs 的架构特征在其结构和性能中的表现;我们在 Toeplitz 表示的基础上,利用一种新的框架揭示了 Hessian 结构及其秩。我们证明了紧的上界,这些结果与 Hessian rank 的实际趋势紧密相似。总体而言,我们的工作推广了并且确立了一个关键性结论,即在卷积神经网络中,Hessian rank 随着参数数量的增加呈现出平方根增长趋势。
May, 2023