- 稳定性边界训练的原因 —— 分层雅可比对齐
用指数欧拉求解器训练神经网络,以准确近似真实的梯度下降动态系统,证明了 Hessian 矩阵的锐度增加是由于网络的逐层 Jacobian 矩阵对齐导致的,而对齐程度与数据集大小呈幂律关系,相关性系数在 0.74 到 0.98 之间。
- 重审,扩展和增强无 Hessian 函数的影响
借助第一阶泰勒展开,影响函数可以估计样本对模型的影响力,无需进行昂贵的模型重新训练;本文通过探索矩阵分解等方法加快和近似海森矩阵的求逆过程,将影响函数应用于深度模型,并提出了一种称为 TracIn 的简单逼近方法,该方法通过将海森矩阵的逆替 - 深度神经网络的损失景观的可视化、重新思考和挖掘
对深度神经网络的损失景观进行研究,系统地将 1D 曲线从简单到复杂逐渐分类,并通过挖掘算法获得相应的扰动方向,最终提出基于 Hessian 矩阵的理论洞察来解释观察到的若干有趣现象。
- 异常梯度分析:通过无 Hessian 影响函数高效提升深度学习模型性能
在数据中心学习的经典情境下,通过分析和解决模型上的凸性假设和计算逆 Hessian 矩阵的计算成本的限制,建立了通过影响函数和异常梯度检测来识别有害训练样本的等价转换,从而扩展了影响函数的适用性,使其能够应用于非凸深度模型,并通过系统性实证 - 贝叶斯深度学习中的无 Hessian Laplace
在该研究中,我们提出了一种利用拉普拉斯近似的替代框架,通过使用后验的曲率和网络预测来估计方差,既避免了计算和翻转黑塞矩阵的步骤,又能够在预训练网络中高效地进行。实验证明,相比于精确和近似黑塞矩阵,该方法表现相当,并具有良好的不确定性覆盖范围 - 使用部分海森矩阵的 SGD 优化深度神经网络
基于二阶算法和 Hessian 矩阵的优化器 SGD-PH 在深度神经网络训练中取得了良好的性能。
- 协同协方差和海森矩阵的特征分析以提高二分类效果
一种新方法将训练集上评估的协方差矩阵的特征分解与在深度学习模型上评估的 Hessian 矩阵相结合,实现了二分类任务中的最优类别可分性,通过投影数据到两个矩阵的最相关特征方向组合空间,优化类别可分性,实验证明我们的方法胜过传统方法,同时突出 - 平坦感知的对抗性攻击
通过加入平坦度感知的正则化项在优化目标中,以提高生成的对抗样本的平坦度,提高了对抗样本的可传递性,表现明显优于现有方法。
- 神经网络可行的无鞍牛顿优化的 Hessian-Vector 乘积系列
提出了一个既能解决大规模的 Hessian 矩阵问题,又能优化非凸性的优化算法,采用了一个无限级数截断的方法,并在多种情境下进行了验证,包括在 CIFAR-10 上训练的 ResNet-18 模型。
- 非凸问题的近似 Hessian 矩阵、梯度和函数随机优化
通过使用随机 TR 和 ARC 方法,我们可以在同时提供 Hessian 矩阵、梯度和函数值的不精确计算的基础上,减少每次迭代的传播开销,从而获得与之前研究中的准确计算同级别的迭代复杂度以实现近似二阶最优性,并通过有限和最小化问题中的随机采 - 大学习率训练的不稳定性:一个损失景观视角
该研究通过考虑具有较大学习率的网络训练过程中的海森矩阵,研究了损失函数空间,揭示了梯度下降的不稳定性,且观察到了景观平坦化和景观移位的引人注目现象,这两者与训练的不稳定性密切相关。
- 利用密度函数的非线性转换估计 Ridge
本文提出一种利用凹非线性变换密度函数后进行带有 Rank-one 矩阵修正的特征值问题的变分方法,以改进对于所估计弯曲曲面在切点处的估测结果。通过其在合成和真实数据集上的实验结果表明了其方法对于估计真实弯曲曲面的优越性。
- SANE:通过锐度调整的有效参数数量优化的梯度下降阶段
本文研究神经网络的 Hessian 矩阵在训练过程中的应用,提出了 SANE 用于模型比较,并探究了大学习率下 Hessian 矩阵的偏移及其对深度神经网络的影响。
- 曲率敏感的预测编码及其近似拉普拉斯蒙特卡洛实现
通过将预测编码视为拉普拉斯近似下的变分贝叶斯算法,我们发现其目标函数中排除与之关联的 Hessian 项是其性能不佳的根源。借此,我们提出了三个主要贡献:提出了一个简单的蒙特卡罗估计证据下界,该证据下界依赖于从 Hessian 参数化的变分 - 为什么 ReLU 网络的对抗训练很困难?
本文通过数学推导的方法得到了对 ReLU 网络中对抗性扰动的解析解,并从理论上解释了对抗性训练的困难。具体来说,我们得到了由多步攻击生成的对抗性扰动的动力学方程,表明对抗性扰动倾向于加强与损失函数的 Hessian 矩阵中排名前几个特征值相 - 前馈神经网络中的活动 - 权重对偶:泛化的几何决定因素
通过发现前馈神经网络中某一层神经元的活动变化与连接到下一层神经元的权重变化之间的完全对偶性,我们提出了一个统一的框架来研究如何控制两个几何因子(loss 地形的尖锐度和双重权重值的标准差,其缩放与解的权重范数成比例)来影响一般化的性能,控制 - 加速随机概率推断
本文提出了一种基于二阶方法的随机变分推断方法,通过求解变分目标函数的 Hessian 矩阵,选择了两种数值方案来实现这种方法,通过合成和真实数据的实证评估,证实了这种方法的有效性和效率。
- SGD 的极限动力学:修改的损失,相空间振荡和反常扩散
研究 SGD 训练的深度神经网络在性能收敛后的步长限制动态,揭示了优化超参数、梯度噪声结构及训练结束时 Hessian 矩阵之间错综复杂的相互作用,通过统计物理学的视角解释这种异常扩散现象并在 ImageNet 数据集的 ResNet-18 - 深度网络中的权重空间对称性导致排列鞍点出现,在损失景观中通过等损谷相连
该研究利用深度神经网络计算的几何方法,探讨网络层之间的置换对全局极小化及鞍点问题的影响及其数学意义。
- 深度神经网络中海森矩阵的负特征值
本文通过对深度网络的黑塞矩阵的特征值分解研究深度网络的损失地形,特别关注负特征值的重要性及其适当处理的益处。