神经(正切核)崩塌
最近,大量文献集中在 “神经坍塌”(NC)现象上,当训练神经网络分类器超过零误差训练点时出现。NC 的核心组成部分是网络最深特征的类内变异性的减少,被称为 NC1。我们提供了一个基于核的分析,不受数据对坍塌程度的影响的简化非约束特征模型(UFM)的限制。通过给定核函数,建立样本特征的类内和类间协方差矩阵的迹的表达式(因此是 NC1 度量)。然后,我们转向研究与浅层神经网络相关的核。首先,我们考虑神经网络高斯过程核(NNGP),与初始化时的网络相关联,并且补充神经切线核(NTK),与其在 “懒惰模式” 下的训练相关。有趣的是,我们证明对于典型数据模型,NTK 并不表示比 NNGP 更多坍塌的特征。当 NC 出现时,我们考虑一个替代 NTK 的方法:最近提出的自适应核,它将 NNGP 推广为从训练数据中学到的特征映射模型。通过对这两种核的 NC1 分析进行对比,可以获得关于数据分布对坍塌程度的影响的见解,这与实际训练神经网络的行为符合实证观察。
Jun, 2024
在深度神经网络训练中,训练动力学与损失面的几何形态和时空变化紧密关联,揭示了深度学习过程中快速的混沌瞬变和稳定状态之间的显著关系。
Oct, 2020
研究表明,深度神经网络中的最后一层特征和分类器在经过训练直至收敛后仍呈现出相同的结构特性,表现为神经崩塌现象。本研究进一步证明了这种现象在深度线性网络中同样存在,并且成功地拓展到了失衡数据的情况下。实验证明了我们的理论分析。
Jan, 2023
本文探讨了图神经网络中的特征演变与拓扑关系,并通过 “神经崩溃” 现象展示了节点分类中的该现象。作者进行了实证研究和理论分析,发现理论模型要求图满足一定严格的结构条件才能得到准确的收缩,并最终通过对图神经网络的研究比较了不同层之间的特征变化与光谱方法的差异。
Jul, 2023
本文证明,对于一类良好行为的输入分布,一个双层全连接神经网络的早期学习动态可以通过在输入上训练简单的线性模型来模仿。关键在于通过约束初始时的神经切向核(NTK)和数据核的仿射变换之间的谱范数差异来赋值。我们还表明,这种令人惊讶的简单性可以在更多层和具有卷积结构的网络中持续存在,验证了这一点。
Jun, 2020
本文研究了有限宽度的深度全连接神经网络中神经切向核的动态,并推导出一个无穷层次的普通微分方程组,它捕捉了深层神经网络的梯度下降动态。此外,在条件限制下,研究证明了 NTH 的截断层次近似于 NTK 的动态。这些描述使直接研究深度神经网络的 NTK 的变化成为可能,同时也揭示了深度神经网络胜过相应极限 NTK 的内在原因。
Sep, 2019
研究表明,最近发现的神经崩溃现象在均方误差和交叉熵损失训练的深度神经网络中普遍存在,由最后一层特征的崩溃导致,本文提出了一个新的理论构建,即中心路径,沿着此路径进行归一化梯度流动力学的研究得出了精确的动态预测神经崩溃现象。
Jun, 2021
通过研究神经网络和内核空间中的简单构建块之间的联系,我们提出了一种从特征组中创建 “组合” 内核的代数。在实验中,我们发现神经网络体系结构和相关内核的测试误差之间存在相关性,并构建了一个只使用 3x3 卷积、2x2 平均池化、ReLU 并使用 SGD 和 MSE 损失进行优化的简单神经网络体系结构,在 CIFAR10 数据集上获得 96%的准确度,其对应的组合内核可达到 90%的准确度。我们还使用我们的构造方法研究了神经网络、NTK 和组合内核在小数据集环境中的相对性能表现,特别是发现组合内核优于 NTK,神经网络优于这两种内核方法。
Mar, 2020
分类神经网络的中间隐藏层中出现一定程度的神经崩溃,而崩溃的程度通常与该层的深度正相关。此外,浅层网络主要减少样本内类别方差,类之间的角度分离随着隐藏层深度的增加而增加。实验结果提供了有关特征在分类神经网络中结构传播的细粒度洞察。
Aug, 2023