无限制特征下的神经崩溃

Nov, 2020

Neural collapse with unconstrained features

Dustin G. Mixon, Hans Parshall, Jianzong Pi

TL;DR本文介绍了一种简单的 “不受限特征模型”，该模型中神经网络崩溃现象得以实证，通过研究该模型，我们提供了关于神经网络崩溃产生原因的一些解释，从经验风险的角度进行解释。

Abstract

neural collapse is an emergent phenomenon in deep learning that was recently discovered by Papyan, Han and Donoho. We propose a simple "unconstrained features model" in which →

neural collapse deep learning unconstrained features model empirical risk landscape

发现论文，激发创造

神经坍塌的无约束分层剖析视角

本文研究神经网络的一种几何模式 —— 神经坍塌现象。我们提出了一个模型 —— 无约束层剥模型（ULPM），证明了该模型的梯度流收敛到一个最小范数分离问题的临界点，表现出全局最小化时神经坍塌现象。此外，我们还表明，采用交叉熵损失函数的 ULPM 具有良好的全局景观，所有临界点都是严格鞍点，除全局最小值外不发生神经坍塌现象。我们的实验证明，即使不使用显式正则化或权重衰减，我们的结果也适用于神经网络的实际任务训练。

Oct, 2021

深度神经网络崩塌对于深度非约束特征模型具有可证明的最优性

本文将已有的理论框架扩展到多个非线性层，通过理论证明和实验验证，说明神经网络的最后一个层的可折叠性会向更早的层传播，同时解释了已有的实验结果。

May, 2023

无限制特征下神经崩溃的几何分析

我们提供了关于神经网络结构中神经崩溃现象的全局优化景观分析，发现交叉熵损失在没有约束条件的特征模型中存在良性全局景观，其中 Simplex ETFs 是唯一的全局最小值，并且我们的实验表明可以通过设置特征维度等于类别数并将最后一层分类器固定为 Simplex ETF 来降低内存使用量。

May, 2021

无约束特征模型下的神经塌陷问题

本研究通过在不受约束的特征模型背景下，研究了交叉熵损失函数下不平衡数据的神经崩溃现象，发现特征向量在同一类中收敛为相同的平均向量，并确定了少数类崩溃的临界阈值，并且结果表明，数据大小不平衡的影响随着样本大小的增长而减小。实验结果验证了理论分析。

Sep, 2023

大规模多类别问题的广义神经塌陷

该论文扩展了神经崩溃理论到类别数量远大于特征空间维度的情况，并提供了实证和理论研究以验证广义神经崩溃现象的存在和原理。

Oct, 2023

基于无约束 ReLU 特征模型的交叉熵类不平衡学习的神经倒塌

在该研究中，我们将神经坍缩现象推广到不平衡类别的交叉熵损失下，证明了虽然类内特征会坍缩，但类均值将收敛到长度不同的正交向量结构，并发现分类器权重与类均值的缩放和居中相关，这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实验证明了我们的结果。

Jan, 2024

深度学习的神经坍塌对理解泛化的局限性

探究神经坍塌现象在深度学习中的作用，研究神经坍塌现象对于泛化能力与优化能力的影响，发现神经坍塌现象主要是一种优化现象，同时也探究了神经坍塌现象在特征学习等方面的表现。

Feb, 2022

记忆膨胀：建模标签噪声下的神经崩溃

本文探讨了神经坍塌现象及其在分类问题中的应用，提出了限制表达能力的神经网络模型和误差扩散现象的模型，并证明标签平滑方法可以提高分类任务的泛化能力。

Jun, 2022

探索深度神经网络崩溃的扩展无约束特征模型

本研究旨在进一步分析和扩展无约束特征模型（UFM）。我们发现，通过将另一层权重以及 ReLU 非线性加入模型，可以更好地描述神经崩溃现象，同时得出了一些实用的结论。

Feb, 2022

深度线性无约束特征模型在深度学习中统一低维观测

现代深度神经网络在各种任务中取得了高性能，研究人员最近注意到这些网络的权重、Hessian 矩阵、梯度和特征向量中存在低维结构，这种低维结构在不同的数据集和架构上进行训练时都能观察到。在本文中，我们在理论上证明了这些观察结果的发生，并展示了如何在一个可以被分析地考虑的广义非约束特征模型中统一这些观察结果。特别地，我们考虑了一种先前描述的结构，称为神经坍缩，以及它的多层对应物，即深度神经坍缩，在网络接近全局最优解时出现。这种现象解释了观察到的其他低维行为，比如在 Hessian 谱中观察到的批量和离群结构，以及梯度下降与 Hessian 的离群特征空间的对齐。深度线性非约束特征模型及其非线性等效模型的经验结果支持了这些预测的观察结果。

Apr, 2024