交叉熵损失下的神经崩溃

Dec, 2020

Neural Collapse with Cross-Entropy Loss

Jianfeng Lu, Stefan Steinerberger

TL;DR研究了在 R^d 的单位超球面上具有 n 个特征向量的交叉熵损失函数的变分问题，证明了当 d≥n-1 时，全局最小值由等角张紧四面体框架给出，证明了神经网络崩塌的行为，并证明了随着 n 趋向于无穷大而点的最小化将在超球面上均匀分布，并展示了与 Benedetto＆Fickus 的框架潜力的联系。

Abstract

We consider the variational problem of cross-entropy loss with $n$ feature vectors on a unit hypersphere in $\mathbb{R}^d$. We prove that when $d \geq n - 1$, the global minimum is given by the →

cross-entropy loss hypersphere neural collapse behavior simplex equiangular tight frame frame potential

发现论文，激发创造

无约束特征模型下的神经塌陷问题

本研究通过在不受约束的特征模型背景下，研究了交叉熵损失函数下不平衡数据的神经崩溃现象，发现特征向量在同一类中收敛为相同的平均向量，并确定了少数类崩溃的临界阈值，并且结果表明，数据大小不平衡的影响随着样本大小的增长而减小。实验结果验证了理论分析。

Sep, 2023

无限制特征下神经崩溃的几何分析

我们提供了关于神经网络结构中神经崩溃现象的全局优化景观分析，发现交叉熵损失在没有约束条件的特征模型中存在良性全局景观，其中 Simplex ETFs 是唯一的全局最小值，并且我们的实验表明可以通过设置特征维度等于类别数并将最后一层分类器固定为 Simplex ETF 来降低内存使用量。

May, 2021

神经网络在均方误差损失下的优化景观：无约束特征下的全局最优性

在分类任务的深度神经网络训练中，观察到了一个现象，称为神经崩溃，它似乎无论损失函数的选择如何，都会在最后一层分类器和特征中发生。作者提供了在均方误差损失下，神经崩溃解决方案是唯一的全局极小值，并且研究了调整超参数来改善优化景观的可能性，最后在实际网络框架上验证了理论发现。

Mar, 2022

基于无约束 ReLU 特征模型的交叉熵类不平衡学习的神经倒塌

在该研究中，我们将神经坍缩现象推广到不平衡类别的交叉熵损失下，证明了虽然类内特征会坍缩，但类均值将收敛到长度不同的正交向量结构，并发现分类器权重与类均值的缩放和居中相关，这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实验证明了我们的结果。

Jan, 2024

深度线性网络中的神经崩溃：从平衡到不平衡数据

研究表明，深度神经网络中的最后一层特征和分类器在经过训练直至收敛后仍呈现出相同的结构特性，表现为神经崩塌现象。本研究进一步证明了这种现象在深度线性网络中同样存在，并且成功地拓展到了失衡数据的情况下。实验证明了我们的理论分析。

Jan, 2023

通过诱导神经崩溃到固定的分层感知框架以降低错误严重性

该研究提出了一种新的深度神经网络架构，通过固定线性分类器到 Hierarchy-Aware Frame (HAFrame)，利用余弦相似度辅助损失函数来学习 collapse 到 HAFrame 的层级感知特征，从而降低模型预测的误差且保持其准确性。

Mar, 2023

通过超球形均匀间隙实现神经坍塌的泛化和解耦

该研究提出了广义神经坍塌假设（GNC），使用超球统一性作为衡量内部类别可变性和外部类别可分性的框架，提出一种泛化目标 HUG，通过测量 GNC 和 HUG 之间的差异来解耦 GNC，作为一种有效的交叉墒代价函数的替代函数。

Mar, 2023

所有的损失都是平等的吗：神经崩溃的视角

本文研究了如何选择神经网络的损失函数，提出所有相关的损失函数都会展现神经折叠现象，且实验表明，无论是交叉熵、标签平滑、聚焦损失还是均方误差，只要神经网络足够大，训练充分，使用这些损失函数训练出的网络特征在测试数据上表现几乎相同。

Oct, 2022

多标签学习中的神经网络崩溃问题与全局标签损失

我们研究了深度神经网络在多标签分类任务中的神经折叠现象，通过研究我们证明了具有 “选择全部标签” 形式的广义神经折叠现象成立，同时发现了多标签学习中独特的 “标签平均” 的组合属性，并在理论上建立了全局优化结果和训练效率的实证证据。

Oct, 2023

失衡问题：重新审视神经陷入坍塌的几何特性

本文通过使用无限制特征模型和引入 Simplex 编码标签插值（SELI）作为神经坍塌现象的不变特征，证明了在使用交叉熵损失和消失正则化时，不受类别不平衡的影响，分类器总是插值出一个 Simplex 编码标签矩阵，而它们的几何形状取决于相同标签矩阵的 SVD 因子。同时，实验结果也表明收敛速度会随着类别不平衡的增加而变慢，并证明正则化对于修正分类器的几何形状也有着至关重要的作用。

Aug, 2022