交叉熵损失下的神经崩溃
本研究通过在不受约束的特征模型背景下,研究了交叉熵损失函数下不平衡数据的神经崩溃现象,发现特征向量在同一类中收敛为相同的平均向量,并确定了少数类崩溃的临界阈值,并且结果表明,数据大小不平衡的影响随着样本大小的增长而减小。实验结果验证了理论分析。
Sep, 2023
我们提供了关于神经网络结构中神经崩溃现象的全局优化景观分析,发现交叉熵损失在没有约束条件的特征模型中存在良性全局景观,其中 Simplex ETFs 是唯一的全局最小值,并且我们的实验表明可以通过设置特征维度等于类别数并将最后一层分类器固定为 Simplex ETF 来降低内存使用量。
May, 2021
在分类任务的深度神经网络训练中,观察到了一个现象,称为神经崩溃,它似乎无论损失函数的选择如何,都会在最后一层分类器和特征中发生。作者提供了在均方误差损失下,神经崩溃解决方案是唯一的全局极小值,并且研究了调整超参数来改善优化景观的可能性,最后在实际网络框架上验证了理论发现。
Mar, 2022
在该研究中,我们将神经坍缩现象推广到不平衡类别的交叉熵损失下,证明了虽然类内特征会坍缩,但类均值将收敛到长度不同的正交向量结构,并发现分类器权重与类均值的缩放和居中相关,这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实验证明了我们的结果。
Jan, 2024
研究表明,深度神经网络中的最后一层特征和分类器在经过训练直至收敛后仍呈现出相同的结构特性,表现为神经崩塌现象。本研究进一步证明了这种现象在深度线性网络中同样存在,并且成功地拓展到了失衡数据的情况下。实验证明了我们的理论分析。
Jan, 2023
该研究提出了一种新的深度神经网络架构,通过固定线性分类器到 Hierarchy-Aware Frame (HAFrame),利用余弦相似度辅助损失函数来学习 collapse 到 HAFrame 的层级感知特征,从而降低模型预测的误差且保持其准确性。
Mar, 2023
该研究提出了广义神经坍塌假设(GNC),使用超球统一性作为衡量内部类别可变性和外部类别可分性的框架,提出一种泛化目标 HUG,通过测量 GNC 和 HUG 之间的差异来解耦 GNC,作为一种有效的交叉墒代价函数的替代函数。
Mar, 2023
本文研究了如何选择神经网络的损失函数,提出所有相关的损失函数都会展现神经折叠现象,且实验表明,无论是交叉熵、标签平滑、聚焦损失还是均方误差,只要神经网络足够大,训练充分,使用这些损失函数训练出的网络特征在测试数据上表现几乎相同。
Oct, 2022
我们研究了深度神经网络在多标签分类任务中的神经折叠现象,通过研究我们证明了具有 “选择全部标签” 形式的广义神经折叠现象成立,同时发现了多标签学习中独特的 “标签平均” 的组合属性,并在理论上建立了全局优化结果和训练效率的实证证据。
Oct, 2023
本文通过使用无限制特征模型和引入 Simplex 编码标签插值(SELI)作为神经坍塌现象的不变特征,证明了在使用交叉熵损失和消失正则化时,不受类别不平衡的影响,分类器总是插值出一个 Simplex 编码标签矩阵,而它们的几何形状取决于相同标签矩阵的 SVD 因子。同时,实验结果也表明收敛速度会随着类别不平衡的增加而变慢,并证明正则化对于修正分类器的几何形状也有着至关重要的作用。
Aug, 2022