无限制特征下的神经崩溃
本文研究神经网络的一种几何模式 —— 神经坍塌现象。我们提出了一个模型 —— 无约束层剥模型(ULPM),证明了该模型的梯度流收敛到一个最小范数分离问题的临界点,表现出全局最小化时神经坍塌现象。此外,我们还表明,采用交叉熵损失函数的 ULPM 具有良好的全局景观,所有临界点都是严格鞍点,除全局最小值外不发生神经坍塌现象。我们的实验证明,即使不使用显式正则化或权重衰减,我们的结果也适用于神经网络的实际任务训练。
Oct, 2021
本文将已有的理论框架扩展到多个非线性层,通过理论证明和实验验证,说明神经网络的最后一个层的可折叠性会向更早的层传播,同时解释了已有的实验结果。
May, 2023
我们提供了关于神经网络结构中神经崩溃现象的全局优化景观分析,发现交叉熵损失在没有约束条件的特征模型中存在良性全局景观,其中 Simplex ETFs 是唯一的全局最小值,并且我们的实验表明可以通过设置特征维度等于类别数并将最后一层分类器固定为 Simplex ETF 来降低内存使用量。
May, 2021
本研究通过在不受约束的特征模型背景下,研究了交叉熵损失函数下不平衡数据的神经崩溃现象,发现特征向量在同一类中收敛为相同的平均向量,并确定了少数类崩溃的临界阈值,并且结果表明,数据大小不平衡的影响随着样本大小的增长而减小。实验结果验证了理论分析。
Sep, 2023
在该研究中,我们将神经坍缩现象推广到不平衡类别的交叉熵损失下,证明了虽然类内特征会坍缩,但类均值将收敛到长度不同的正交向量结构,并发现分类器权重与类均值的缩放和居中相关,这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实验证明了我们的结果。
Jan, 2024
探究神经坍塌现象在深度学习中的作用,研究神经坍塌现象对于泛化能力与优化能力的影响,发现神经坍塌现象主要是一种优化现象,同时也探究了神经坍塌现象在特征学习等方面的表现。
Feb, 2022
本研究旨在进一步分析和扩展无约束特征模型(UFM)。我们发现,通过将另一层权重以及 ReLU 非线性加入模型,可以更好地描述神经崩溃现象,同时得出了一些实用的结论。
Feb, 2022
现代深度神经网络在各种任务中取得了高性能,研究人员最近注意到这些网络的权重、Hessian 矩阵、梯度和特征向量中存在低维结构,这种低维结构在不同的数据集和架构上进行训练时都能观察到。在本文中,我们在理论上证明了这些观察结果的发生,并展示了如何在一个可以被分析地考虑的广义非约束特征模型中统一这些观察结果。特别地,我们考虑了一种先前描述的结构,称为神经坍缩,以及它的多层对应物,即深度神经坍缩,在网络接近全局最优解时出现。这种现象解释了观察到的其他低维行为,比如在 Hessian 谱中观察到的批量和离群结构,以及梯度下降与 Hessian 的离群特征空间的对齐。深度线性非约束特征模型及其非线性等效模型的经验结果支持了这些预测的观察结果。
Apr, 2024