探索深度神经网络崩溃的扩展无约束特征模型
本研究通过在不受约束的特征模型背景下,研究了交叉熵损失函数下不平衡数据的神经崩溃现象,发现特征向量在同一类中收敛为相同的平均向量,并确定了少数类崩溃的临界阈值,并且结果表明,数据大小不平衡的影响随着样本大小的增长而减小。实验结果验证了理论分析。
Sep, 2023
在该研究中,我们将神经坍缩现象推广到不平衡类别的交叉熵损失下,证明了虽然类内特征会坍缩,但类均值将收敛到长度不同的正交向量结构,并发现分类器权重与类均值的缩放和居中相关,这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实验证明了我们的结果。
Jan, 2024
研究表明,深度神经网络中的最后一层特征和分类器在经过训练直至收敛后仍呈现出相同的结构特性,表现为神经崩塌现象。本研究进一步证明了这种现象在深度线性网络中同样存在,并且成功地拓展到了失衡数据的情况下。实验证明了我们的理论分析。
Jan, 2023
在分类任务的深度神经网络训练中,观察到了一个现象,称为神经崩溃,它似乎无论损失函数的选择如何,都会在最后一层分类器和特征中发生。作者提供了在均方误差损失下,神经崩溃解决方案是唯一的全局极小值,并且研究了调整超参数来改善优化景观的可能性,最后在实际网络框架上验证了理论发现。
Mar, 2022
本文将已有的理论框架扩展到多个非线性层,通过理论证明和实验验证,说明神经网络的最后一个层的可折叠性会向更早的层传播,同时解释了已有的实验结果。
May, 2023
透过神经坍塌(Neural-collapse)的模式来研究优化的对比损失(supervised contrastive loss)在超参数化的深度神经网络中产生的解决方案,该论文通过采用无约束特征模型(UFM)的分析方法,证明了所有局部最小值都是全局最小值,而最小化器是唯一的(除了旋转)。最后,通过这个凸形式,深入研究在标签不平衡的训练数据下全局解的特性。
Feb, 2024
我们研究了深度神经网络在多标签分类任务中的神经折叠现象,通过研究我们证明了具有 “选择全部标签” 形式的广义神经折叠现象成立,同时发现了多标签学习中独特的 “标签平均” 的组合属性,并在理论上建立了全局优化结果和训练效率的实证证据。
Oct, 2023
本文研究神经网络的一种几何模式 —— 神经坍塌现象。我们提出了一个模型 —— 无约束层剥模型(ULPM),证明了该模型的梯度流收敛到一个最小范数分离问题的临界点,表现出全局最小化时神经坍塌现象。此外,我们还表明,采用交叉熵损失函数的 ULPM 具有良好的全局景观,所有临界点都是严格鞍点,除全局最小值外不发生神经坍塌现象。我们的实验证明,即使不使用显式正则化或权重衰减,我们的结果也适用于神经网络的实际任务训练。
Oct, 2021