深度神经网络崩塌对于深度非约束特征模型具有可证明的最优性
研究表明,深度神经网络中的最后一层特征和分类器在经过训练直至收敛后仍呈现出相同的结构特性,表现为神经崩塌现象。本研究进一步证明了这种现象在深度线性网络中同样存在,并且成功地拓展到了失衡数据的情况下。实验证明了我们的理论分析。
Jan, 2023
本研究旨在进一步分析和扩展无约束特征模型(UFM)。我们发现,通过将另一层权重以及 ReLU 非线性加入模型,可以更好地描述神经崩溃现象,同时得出了一些实用的结论。
Feb, 2022
在该研究中,我们将神经坍缩现象推广到不平衡类别的交叉熵损失下,证明了虽然类内特征会坍缩,但类均值将收敛到长度不同的正交向量结构,并发现分类器权重与类均值的缩放和居中相关,这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实验证明了我们的结果。
Jan, 2024
分类神经网络的中间隐藏层中出现一定程度的神经崩溃,而崩溃的程度通常与该层的深度正相关。此外,浅层网络主要减少样本内类别方差,类之间的角度分离随着隐藏层深度的增加而增加。实验结果提供了有关特征在分类神经网络中结构传播的细粒度洞察。
Aug, 2023
本文介绍了一种简单的 “不受限特征模型”,该模型中神经网络崩溃现象得以实证,通过研究该模型,我们提供了关于神经网络崩溃产生原因的一些解释,从经验风险的角度进行解释。
Nov, 2020
本文研究神经网络的一种几何模式 —— 神经坍塌现象。我们提出了一个模型 —— 无约束层剥模型(ULPM),证明了该模型的梯度流收敛到一个最小范数分离问题的临界点,表现出全局最小化时神经坍塌现象。此外,我们还表明,采用交叉熵损失函数的 ULPM 具有良好的全局景观,所有临界点都是严格鞍点,除全局最小值外不发生神经坍塌现象。我们的实验证明,即使不使用显式正则化或权重衰减,我们的结果也适用于神经网络的实际任务训练。
Oct, 2021
我们提供了关于神经网络结构中神经崩溃现象的全局优化景观分析,发现交叉熵损失在没有约束条件的特征模型中存在良性全局景观,其中 Simplex ETFs 是唯一的全局最小值,并且我们的实验表明可以通过设置特征维度等于类别数并将最后一层分类器固定为 Simplex ETF 来降低内存使用量。
May, 2021
在分类任务的深度神经网络训练中,观察到了一个现象,称为神经崩溃,它似乎无论损失函数的选择如何,都会在最后一层分类器和特征中发生。作者提供了在均方误差损失下,神经崩溃解决方案是唯一的全局极小值,并且研究了调整超参数来改善优化景观的可能性,最后在实际网络框架上验证了理论发现。
Mar, 2022