深度神经网络崩塌对于深度非约束特征模型具有可证明的最优性

May, 2023

深度神经网络崩塌对于深度非约束特征模型具有可证明的最优性

Deep Neural Collapse Is Provably Optimal for the Deep Unconstrained Features Model

Peter Súkeník, Marco Mondelli, Christoph Lampert

TL;DR本文将已有的理论框架扩展到多个非线性层，通过理论证明和实验验证，说明神经网络的最后一个层的可折叠性会向更早的层传播，同时解释了已有的实验结果。

Abstract

neural collapse (NC) refers to the surprising structure of the last layer of deep neural networks in the terminal phase of gradient descent

neural collapse deep neural networks gradient descent unconstrained features model binary classification

发现论文，激发创造

神经崩溃与低秩偏差：深度神经网络崩溃是否真正最优？

深度神经网络中的神经塌缩现象对于非线性模型和多分类问题呈现低秩结构的突变是其优化的主要原因。

May, 2024

深度线性网络中的神经崩溃：从平衡到不平衡数据

研究表明，深度神经网络中的最后一层特征和分类器在经过训练直至收敛后仍呈现出相同的结构特性，表现为神经崩塌现象。本研究进一步证明了这种现象在深度线性网络中同样存在，并且成功地拓展到了失衡数据的情况下。实验证明了我们的理论分析。

Jan, 2023

探索深度神经网络崩溃的扩展无约束特征模型

本研究旨在进一步分析和扩展无约束特征模型（UFM）。我们发现，通过将另一层权重以及 ReLU 非线性加入模型，可以更好地描述神经崩溃现象，同时得出了一些实用的结论。

Feb, 2022

基于无约束 ReLU 特征模型的交叉熵类不平衡学习的神经倒塌

在该研究中，我们将神经坍缩现象推广到不平衡类别的交叉熵损失下，证明了虽然类内特征会坍缩，但类均值将收敛到长度不同的正交向量结构，并发现分类器权重与类均值的缩放和居中相关，这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实验证明了我们的结果。

Jan, 2024

ResNet 训练的渐进式前馈塌陷

中间层的神经崩溃现象（NC）和渐进前向传播崩溃现象（PFC），以及它们对输入数据的依赖性扩展了对 ResNet 在分类问题中的理论理解。

May, 2024

分类神经网络中的中间隐藏层神经失调

分类神经网络的中间隐藏层中出现一定程度的神经崩溃，而崩溃的程度通常与该层的深度正相关。此外，浅层网络主要减少样本内类别方差，类之间的角度分离随着隐藏层深度的增加而增加。实验结果提供了有关特征在分类神经网络中结构传播的细粒度洞察。

Aug, 2023

无限制特征下的神经崩溃

本文介绍了一种简单的 “不受限特征模型”，该模型中神经网络崩溃现象得以实证，通过研究该模型，我们提供了关于神经网络崩溃产生原因的一些解释，从经验风险的角度进行解释。

Nov, 2020

神经坍塌的无约束分层剖析视角

本文研究神经网络的一种几何模式 —— 神经坍塌现象。我们提出了一个模型 —— 无约束层剥模型（ULPM），证明了该模型的梯度流收敛到一个最小范数分离问题的临界点，表现出全局最小化时神经坍塌现象。此外，我们还表明，采用交叉熵损失函数的 ULPM 具有良好的全局景观，所有临界点都是严格鞍点，除全局最小值外不发生神经坍塌现象。我们的实验证明，即使不使用显式正则化或权重衰减，我们的结果也适用于神经网络的实际任务训练。

Oct, 2021

无限制特征下神经崩溃的几何分析

我们提供了关于神经网络结构中神经崩溃现象的全局优化景观分析，发现交叉熵损失在没有约束条件的特征模型中存在良性全局景观，其中 Simplex ETFs 是唯一的全局最小值，并且我们的实验表明可以通过设置特征维度等于类别数并将最后一层分类器固定为 Simplex ETF 来降低内存使用量。

May, 2021

神经网络在均方误差损失下的优化景观：无约束特征下的全局最优性

在分类任务的深度神经网络训练中，观察到了一个现象，称为神经崩溃，它似乎无论损失函数的选择如何，都会在最后一层分类器和特征中发生。作者提供了在均方误差损失下，神经崩溃解决方案是唯一的全局极小值，并且研究了调整超参数来改善优化景观的可能性，最后在实际网络框架上验证了理论发现。

Mar, 2022