- 数据会在深度学习中引起容量控制吗?
通过对分类数据集进行研究,我们发现输入相关矩阵的特征值谱具有指数级范围的均匀分布特征,这种结构体现在训练出的网络的 Hessian 矩阵和 Fisher 信息矩阵的特征值谱中,我们称这种特征值谱为 “懒散”,我们还发现非懒散的训练集可能导致 - 神经网络海森矩阵图的结构和排名的分析洞见
本研究通过开发理论工具来分析 Hessian 映射的范围,提供了深度线性网络 Hessian 级别的确切公式和紧密的上限,以及其冗余程度的原因,从而深入探究了过参数化网络中冗余的来源和程度。
- ICLR神经网络梯度下降通常发生在稳定边缘
本研究通过实验证明神经网络训练目标的全批量梯度下降通常处于稳定性的边缘状态。在这种状态下,训练损失 Hessian 的最大特征值略高于数值 $2/ ext {(步长)}$,训练损失在短时间内呈现非单调行为,但在长时间尺度上保持下降态势。鉴于 - 解剖 Hessian:理解神经网络中 Hessian 的共同结构
本论文探讨了神经网络的 Loss Surface 的 Hessian 特性,提出了层级 Hessian 的分解假设,分析了这些小矩阵的特性并证明了随机 2 层神经网络的前几个特征空间结构,同时讨论了不同模型的前 k 个特征空间有非常高的重叠 - Laplace 近似下的可学习不确定性
本文提出一种方法来训练拉普拉斯逼近神经网络中的不确定性,介绍了用于拉普拉斯逼近网络的不确定性单元,并通过不确定性感知目标来训练这些单元,以提高在不同不确定性量化任务中的性能表现。
- 浅层 ReLU 模型中 Hessian 的分析特性:一段关于对称性的故事
论文研究用两层 ReLU 神经网络中 Hessian 矩阵的对称性状结构及其在寻找拟最小值时的作用,指出 Hessian 矩阵的本征值存在极度不平衡的现象,为统计推广提供了重要参考。
- 随机梯度下降中的重尾现象
本文阐述了随机梯度下降(SGD)在深度学习中的泛化性能与最小值的浅奥关系,并通过线性回归等简单问题分析证明了参数选择会对算法的收敛率及概率分布产生影响。
- ADAHESSIAN:适应性的机器学习二阶优化器
该论文介绍了 ADAHESSIAN 这种基于自适应 Hessian 估计的二阶随机优化算法,通过运用 Hutchinson 方法来降低其计算成本,以及采用块对角平均方法减少 Hessian 对角元素的方差和 RMSE 指数平滑法平滑 Hes - CVPR扩展 Kronecker 分解近似曲率的续学习
提出了一种二次罚函数方法用于神经网络的不断学习,其中包含批量归一化层。通过考虑实例间的关系,扩展了 K-FAC 方法,以便在实际情况下正确逼近深度神经网络的 Hessian 矩阵。同时提出了一种权重合并和再参数化方法,并且对批归一化的统计参 - 符号梯度下降的几何学
本文介绍了基于符号的优化方法在分布式优化中有良好的通信成本和在神经网络训练中具有出色的性能。同时探讨了分离平滑性与∞- 平滑性之间的联系,指出后者是更弱和更自然的假设。研究表明,在深度网络中,如果 Hession 矩阵在对角线方向上集中,并 - HAWQ-V2: 基于 Hessian 感知的神经网络权重量化
研究混合精度量化的方法,使用 Hessian 分析来解决由于过度量化而导致的模型泛化下降问题,并提出了 HAWQV2 来解决先前 HAWQV1 中出现的三个主要限制,包括使用平均值作为敏感度度量的改进版本,使用 Pareto 前沿方法进行自 - 带对角 Barzilai-Borwein 步长的变尺度近端梯度法
本文提出了一种自适应度量选择策略,称为对角巴比勒 - 博因步长,以改进在凸优化问题上使用变量计量近端梯度(VM-PG)算法;该新方法显著改善了 VM-PG 的理论收敛性,并且在使用合成和真实数据集的机器学习问题中表现出了改进的收敛结果。
- 深度神经网络的 Hessian 矩阵在训练过程中的渐近光谱
本文讨论了 DNN 在梯度下降过程中的动态,并根据所谓的神经切向核(NTK)揭示了 DNN 代价函数海森矩阵的精确洞察力。我们证明,当 NTK 在训练过程中保持不变时,我们可以获得代价函数海森矩阵的渐近谱的完整特征描述。在所谓的平均场极限中 - 基于 Hessian 的 SGD 分析:深度网络的动力学和泛化
本文通过对训练损失函数的海森矩阵及其相关量的分析,探讨了随机梯度下降(SGD)的优化动态和泛化行为等三个问题,并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。
- 噪音和曲率之间的相互作用及其对优化和泛化的影响
通过研究损失曲率和梯度方差的交互作用对优化速度的影响,本文探讨了两者相互作用如何影响优化速度,并阐明了曲率和噪声对于正确估计概括性差距的相关性质,同时区分了 Fisher 矩阵、Hessian 矩阵和梯度的协方差矩阵,以澄清现有作品的局限性 - 深度神经网络 Hessian 谱中离群点的三层分层结构测量
通过对参数与模型 logits 导数结构的研究,我们发现了导致 Hessian 特异值异常的二阶矩矩阵结构,该结构可以通过平均操作来近似 Hessian 的主子空间,避免高维特征值分析的需求。
- 大规模深度神经网络海森矩阵的全频谱:SGD 训练和样本规模的动态
使用最先进的高维数值线性代数工具来有效近似现代深度学习网络巨大参数空间上的 Hessian 谱,研究发现该 Hessian 具有 “尖峰” 行为,同时分别分析各项的训练动态和样本大小变化情况。
- 神经网络中的泛化特性识别
通过 PAC-Bayes 范式描述的解的局部特性,证明了模型泛化能力与 Hessian、Lipschitz 常数和参数的尺度有关,并提出了泛化指标及相应的算法。
- 浅层线性神经网络的全局优化几何
本文研究了浅层线性神经网络的平方误差损失景观。研究表明,对于相应的优化问题,其具有良好的几何性质,没有虚假局部极值,每个鞍点的 Hessian 矩阵至少有一个负特征值。这意味着在每个鞍点处,都有一个负的曲率方向可以用来优化目标函数值,因此很 - Langevin Monte Carlo 与不准确梯度的用户友好保证
本文研究了从已知平滑和强对数凹概率密度函数中采样的方法, 分析了基于过渡态随机游走的近似采样方法,并提出了几种保证误差的方法, 包括第一阶 Langevin Monte Carlo 算法的误差上界、误差上界和梯度评估不准确的情况, 以及二阶