均方误差下的神经崩溃：靠近中心路径的动态

ICLRJun, 2021

均方误差下的神经崩溃：靠近中心路径的动态

Neural Collapse Under MSE Loss: Proximity to and Dynamics on the Central Path

X.Y. Han, Vardan Papyan, David L. Donoho

TL;DR研究表明，最近发现的神经崩溃现象在均方误差和交叉熵损失训练的深度神经网络中普遍存在，由最后一层特征的崩溃导致，本文提出了一个新的理论构建，即中心路径，沿着此路径进行归一化梯度流动力学的研究得出了精确的动态预测神经崩溃现象。

Abstract

The recently discovered neural collapse (NC) phenomenon occurs pervasively in today's deep net training paradigm of driving cross-entropy (CE) loss towards zero. During NC, →

neural collapse deep net training mean squared error last-layer features renormalized gradient flow

发现论文，激发创造

深度线性网络中的神经崩溃：从平衡到不平衡数据

研究表明，深度神经网络中的最后一层特征和分类器在经过训练直至收敛后仍呈现出相同的结构特性，表现为神经崩塌现象。本研究进一步证明了这种现象在深度线性网络中同样存在，并且成功地拓展到了失衡数据的情况下。实验证明了我们的理论分析。

Jan, 2023

神经网络在均方误差损失下的优化景观：无约束特征下的全局最优性

在分类任务的深度神经网络训练中，观察到了一个现象，称为神经崩溃，它似乎无论损失函数的选择如何，都会在最后一层分类器和特征中发生。作者提供了在均方误差损失下，神经崩溃解决方案是唯一的全局极小值，并且研究了调整超参数来改善优化景观的可能性，最后在实际网络框架上验证了理论发现。

Mar, 2022

所有的损失都是平等的吗：神经崩溃的视角

本文研究了如何选择神经网络的损失函数，提出所有相关的损失函数都会展现神经折叠现象，且实验表明，无论是交叉熵、标签平滑、聚焦损失还是均方误差，只要神经网络足够大，训练充分，使用这些损失函数训练出的网络特征在测试数据上表现几乎相同。

Oct, 2022

探索神经坍塌时的泛化行为

深度神经网络中神经崩溃现象及其对泛化性能的影响，以及多类支持向量机、非保守性泛化等的理论解释与实验观察。

Oct, 2023

关于元学习模型中神经坍塌的作用对少样本学习的研究

元学习框架用于少样本学习，旨在学习能够快速学习新技能或适应新环境的模型。本研究首次探索和理解元学习框架中神经坍塌现象的特性，观察到学习到的特征确实呈现神经坍塌趋势，然而并不完全符合神经坍塌性质的度量。通过在 Omniglot 数据集上进行研究，揭示了表示学习中的神经坍塌现象。

Sep, 2023

基于无约束 ReLU 特征模型的交叉熵类不平衡学习的神经倒塌

在该研究中，我们将神经坍缩现象推广到不平衡类别的交叉熵损失下，证明了虽然类内特征会坍缩，但类均值将收敛到长度不同的正交向量结构，并发现分类器权重与类均值的缩放和居中相关，这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实验证明了我们的结果。

Jan, 2024

神经（正切核）崩塌

本研究介绍了神经切比雪夫核（NTK）和神经塌缩（NC）现象对深度神经网络（DNN）训练的影响，提出了经验 NTK 应发展为与类标签对齐的块状结构，分析了 DNN 的动态并证明了块状 NTK 中存在 NC 现象。通过数值实验验证了理论的正确性。

May, 2023

分类神经网络中的中间隐藏层神经失调

分类神经网络的中间隐藏层中出现一定程度的神经崩溃，而崩溃的程度通常与该层的深度正相关。此外，浅层网络主要减少样本内类别方差，类之间的角度分离随着隐藏层深度的增加而增加。实验结果提供了有关特征在分类神经网络中结构传播的细粒度洞察。

Aug, 2023

多标签学习中的神经网络崩溃问题与全局标签损失

我们研究了深度神经网络在多标签分类任务中的神经折叠现象，通过研究我们证明了具有 “选择全部标签” 形式的广义神经折叠现象成立，同时发现了多标签学习中独特的 “标签平均” 的组合属性，并在理论上建立了全局优化结果和训练效率的实证证据。

Oct, 2023

深度学习训练终期神经崩溃的普遍存在

训练深度网络的末期化训练（TPT）会导致神经坍塌现象，即最后一层训练激活的交叉示例内部变化降至零，导致分类器的决策简化为最近的类中心决策规则，然而这种对称且非常简单的几何结构具有更好的泛化性能，更好的稳健性和更好的可解释性。

Aug, 2020