在没有梯度噪声的权重矩阵谱中制造重尾
通过随机矩阵理论,提出了一种名为 “Heavy-Tailed Regularization” 的正则化技术,此技术优化了神经网络的权重矩阵,使其有更重的尾巴,并提升了网络的泛化能力。对比传统的正则化方法,实验结果证明这种新方法在泛化效果上更优秀。
Apr, 2023
通过构建通用容量控制度量,该度量基于重尾自正则化(HT-SR)理论,发现现代深度神经网络的层权矩阵中的相关性可调整为和重尾随机矩阵理论相同的普适类别。实验表明,该度量与测试准确性相关良好。
Jan, 2019
本研究运用随机矩阵理论分析了深度神经网络的权重矩阵,通过实验和理论结果表明神经网络层矩阵的经验谱密度显示出传统正则化统计模型的特征。并且发现随着训练阶段的增加,隐式自正则化逐渐显现,这种隐式自正则化可以像传统的 Tikhonov 正则化一样,但也可以是重尾分布的,类似于无序系统的自组织现象,并存在着一个通用性的现象。
Jan, 2019
通过对连续扩散逼近的随机梯度下降进行分析,我们发现它在渐近意义下表现出重尾分布,并给出了尾指数的上下界。我们通过数值实验验证了这些界限,并显示它们通常是 SGD 迭代的经验尾指数的近似。此外,这些界限的显式形式使我们能够量化优化参数与尾指数之间的相互作用,这对于研究神经网络的广义性能和 SGD 避免次优局部极小值的能力的关联问题具有重要意义。
Feb, 2024
通过随机梯度下降(SGD)和经验 Hessian 和梯度矩阵的谱的联合演化,我们严格地研究了训练动态的联合演化。我们证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外,在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化,并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
Oct, 2023
我们研究了合成高斯数据中单层和双层线性神经网络在随机梯度下降(SGD)的持续(末期)训练阶段。我们发现,在过度采样不足的弱过采样范围内,单层网络的噪声协方差矩阵的谱明显偏离 Hessian,可归因于 SGD 动力学的详细平衡破坏。在这种情况下,权重波动一般是各向异性的,但经历各向同性的损失。对于双层网络,我们获得了各层权重的随机动力学,并分析了相关的稳定的协方差。我们将层间耦合确定为权重波动的新源头。与单层情况不同,权重波动经历了各向异性的损失,其平坦度与波动方差成反比。因此,我们在深度线性网络模型中提供了最近观察到的逆方差 - 平坦度关系的分析推导。
Nov, 2023
使用最先进的高维数值线性代数工具来有效近似现代深度学习网络巨大参数空间上的 Hessian 谱,研究发现该 Hessian 具有 “尖峰” 行为,同时分别分析各项的训练动态和样本大小变化情况。
Nov, 2018
本文讨论了 DNN 在梯度下降过程中的动态,并根据所谓的神经切向核(NTK)揭示了 DNN 代价函数海森矩阵的精确洞察力。我们证明,当 NTK 在训练过程中保持不变时,我们可以获得代价函数海森矩阵的渐近谱的完整特征描述。在所谓的平均场极限中,NTK 在训练过程中不固定,我们描述了代价函数海森矩阵的初始化时的前两个矩。
Oct, 2019
最近的研究表明,诸如 SAM 之类的方法能够明确或隐含地对二阶信息进行惩罚,从而提高深度学习的泛化能力。然而,权重噪声和梯度惩罚等看似类似的方法通常无法提供这样的好处。本文通过损失函数的海塞矩阵结构展示了这些差异可以得到解释。首先,我们展示了海塞矩阵的一个常见分解可以定量解释特征的利用和探索。探索特征可以由非线性建模误差矩阵 (NME) 来描述,在插值时通常被文献中忽略。我们的工作表明,NME 实际上是重要的,因为它可以解释为什么梯度惩罚对激活函数的选择敏感。利用这一洞见,我们设计了改进性能的干预措施。我们还提供证据挑战了长期以来权重噪声和梯度惩罚的等价性。这种等价性依赖于可以忽略 NME 的假设,但我们发现这一假设对于现代网络并不成立,因为它们涉及显著的特征学习。我们发现,正则化特征的利用而不是探索能够获得与梯度惩罚相似的性能。
Jan, 2024