通过分层模型探索深度神经网络：不平衡训练中的少数类崩溃

Jan, 2021

通过分层模型探索深度神经网络：不平衡训练中的少数类崩溃

Exploring Deep Neural Networks via Layer-Peeled Model: Minority Collapse in Imbalanced Training

Cong Fang, Hangfeng He, Qi Long, Weijie J. Su

TL;DR本文介绍了 Layer-Peeled 模型，它是一种非凸优化程序，并通过在深度神经网络顶层和其余部分之间分别施加一定的约束来获得解析可追踪性。通过研究我们发现，该模型虽然简单，但具有许多深度神经网络的特性，因此是解释和预测深度学习训练的常见经验模式的有效工具。其中，我们发现对于 Class-balanced 数据集，Layer-Peeled 模型的任何解都构成一个 simplex equiangular tight frame（简称 SET frame），这在一定程度上解释了神经崩溃现象。在非平衡数据的情况下，我们的 Layer-Peeled 模型分析揭示了一个迄今未知的现象 ——Minority Collapse，这从根本上限制了深度学习模型在少数类上的性能，为缓解其带来的后果提供了一些启示。

Abstract

In this paper, we introduce the \textit{layer-peeled model}, a nonconvex yet analytically tractable optimization program, in a quest to better understand deep neural networks that are trained for a sufficiently long time. As the name suggests, this new model is derived by isolating the

deep learning layer-peeled model neural collapse class-balanced datasets minority collapse

发现论文，激发创造

神经坍塌的无约束分层剖析视角

本文研究神经网络的一种几何模式 —— 神经坍塌现象。我们提出了一个模型 —— 无约束层剥模型（ULPM），证明了该模型的梯度流收敛到一个最小范数分离问题的临界点，表现出全局最小化时神经坍塌现象。此外，我们还表明，采用交叉熵损失函数的 ULPM 具有良好的全局景观，所有临界点都是严格鞍点，除全局最小值外不发生神经坍塌现象。我们的实验证明，即使不使用显式正则化或权重衰减，我们的结果也适用于神经网络的实际任务训练。

Oct, 2021

LayerCollapse：神经网络的自适应压缩

利用 LayerCollapse 方法进行适应性模型压缩，通过消除网络中的非线性并将两个连续的全连接层合并为单个线性变换，同时减少层数和参数数量，提高模型效率；引入压缩感知正则化器，根据数据集质量和模型表现压缩模型，减少过拟合；实验证明 LayerCollapse 在多个细粒度分类基准测试中实现有效的压缩和正则化，最高在训练后压缩 74% 但准确度损失最小；与知识蒸馏方法对比，在 ImageNet 数据集上计算效率提高五倍，整体准确度提高 8%。

Nov, 2023

超越捷径：通过神经坍缩的视角进行无偏学习

本文探讨了神经塌缩（Neural Collapse）现象在不平衡属性的偏倚数据集中的影响，提出了一种避免捷径学习的框架，通过设计神经塌缩结构的快捷方式引导模型，以捕捉内在的相关性，从而解决了偏倚分类的根本原因，实验证明该方法在训练过程中具有更好的收敛性能并在综合和真实世界的偏倚数据集上实现了最新的泛化性能。

May, 2024

深度线性网络中的神经崩溃：从平衡到不平衡数据

研究表明，深度神经网络中的最后一层特征和分类器在经过训练直至收敛后仍呈现出相同的结构特性，表现为神经崩塌现象。本研究进一步证明了这种现象在深度线性网络中同样存在，并且成功地拓展到了失衡数据的情况下。实验证明了我们的理论分析。

Jan, 2023

深度神经网络崩塌对于深度非约束特征模型具有可证明的最优性

本文将已有的理论框架扩展到多个非线性层，通过理论证明和实验验证，说明神经网络的最后一个层的可折叠性会向更早的层传播，同时解释了已有的实验结果。

May, 2023

深度学习的神经坍塌对理解泛化的局限性

探究神经坍塌现象在深度学习中的作用，研究神经坍塌现象对于泛化能力与优化能力的影响，发现神经坍塌现象主要是一种优化现象，同时也探究了神经坍塌现象在特征学习等方面的表现。

Feb, 2022

神经崩溃与低秩偏差：深度神经网络崩溃是否真正最优？

深度神经网络中的神经塌缩现象对于非线性模型和多分类问题呈现低秩结构的突变是其优化的主要原因。

May, 2024

无限制特征下神经崩溃的几何分析

我们提供了关于神经网络结构中神经崩溃现象的全局优化景观分析，发现交叉熵损失在没有约束条件的特征模型中存在良性全局景观，其中 Simplex ETFs 是唯一的全局最小值，并且我们的实验表明可以通过设置特征维度等于类别数并将最后一层分类器固定为 Simplex ETF 来降低内存使用量。

May, 2021

无限制特征下的神经崩溃

本文介绍了一种简单的 “不受限特征模型”，该模型中神经网络崩溃现象得以实证，通过研究该模型，我们提供了关于神经网络崩溃产生原因的一些解释，从经验风险的角度进行解释。

Nov, 2020

大规模多类别问题的广义神经塌陷

该论文扩展了神经崩溃理论到类别数量远大于特征空间维度的情况，并提供了实证和理论研究以验证广义神经崩溃现象的存在和原理。

Oct, 2023