几何复杂度对转移学习中神经塌陷的影响
本文研究基础模型学习分类表示在转移学习中的能力。我们通过解释过参数分类器所学习到的特征在转移学习中的普遍适用性,展示神经坍塌现象在样本训练类和新类别上的泛化性,并能成功应用在少样本学习任务中。
Dec, 2021
通过测量预训练模型中神经崩溃的程度,提出了一种名为 Fair Collapse(FaCe)的新方法用于传递性估计,该方法包括方差崩溃项和类公平度项。实验结果表明,FaCe 在图像分类、语义分割和文本分类等不同任务上取得了最先进的性能,证明了我们方法的有效性和泛化能力。
Oct, 2023
本文通过使用无限制特征模型和引入 Simplex 编码标签插值(SELI)作为神经坍塌现象的不变特征,证明了在使用交叉熵损失和消失正则化时,不受类别不平衡的影响,分类器总是插值出一个 Simplex 编码标签矩阵,而它们的几何形状取决于相同标签矩阵的 SVD 因子。同时,实验结果也表明收敛速度会随着类别不平衡的增加而变慢,并证明正则化对于修正分类器的几何形状也有着至关重要的作用。
Aug, 2022
通过统一的几何原理,深度学习可以更好地揭示基本规律,提供数学框架来研究卷积神经网络、循环神经网络、图神经网络和变压器网络等神经网络,且可以将物理学知识结合到神经网络结构中,从而提供了未来神经网络结构的原则性方法。
Apr, 2021
深度神经网络的泛化能力在参数空间的损失景观形状和特征空间(即单位活动的空间)的表示流形结构两个不同的方法中已经被研究,但很少一起研究并显式连接。我们提出了一个简单的分析,建立了它们之间的联系,并展示了表明在深度神经网络的学习的最后阶段,神经表示流形的体积压缩与参数优化过程中所探索的最小值周围的损失的平坦性相关的结果。
Oct, 2023
神经坍缩是神经网络训练结束时的奇特现象,它的特征向量和分类权重收敛为一个非常简单的几何结构(简单形)。本研究探究这些简单形的稳定性质,发现它们容易受到小型对抗性攻击的影响,扰动的示例可以在简单形的顶点之间跳跃。此外,作者分析了对抗性扰动优化的网络几何结构,发现神经坍缩在这些情况下普遍存在,干净和扰动的表示形成一致的简单形,并构建了一个鲁棒的近邻分类器。通过研究神经网络内部坍缩量的传播,作者发现了鲁棒和非鲁棒机器学习模型的新特性,并表明早期层次与后期层次在扰动数据上保持可靠的简单形。
Nov, 2023
该研究试图从泛化、优化和可转移性的角度理解神经网络的迁移能力,发现模型的可转移性与目标数据集的相似度、训练阶段以及转移参数的一些特性相关,包括使损失函数更加有利,加快和稳定训练过程。
Sep, 2019
我们提供了关于神经网络结构中神经崩溃现象的全局优化景观分析,发现交叉熵损失在没有约束条件的特征模型中存在良性全局景观,其中 Simplex ETFs 是唯一的全局最小值,并且我们的实验表明可以通过设置特征维度等于类别数并将最后一层分类器固定为 Simplex ETF 来降低内存使用量。
May, 2021
本文探讨了神经塌缩(Neural Collapse)现象在不平衡属性的偏倚数据集中的影响,提出了一种避免捷径学习的框架,通过设计神经塌缩结构的快捷方式引导模型,以捕捉内在的相关性,从而解决了偏倚分类的根本原因,实验证明该方法在训练过程中具有更好的收敛性能并在综合和真实世界的偏倚数据集上实现了最新的泛化性能。
May, 2024
本文提出了一种从原始数据(即点云)中直接计算高保真度隐式神经表示的新范式,它鼓励神经网络在输入点云上消失并具有单位范数梯度的简单损失函数具有几何正则化特性,利用神经网络表示任务的表面形状的零水平集,避免不良零损失解,实验表明该方法与之前的方法相比具有更高的细节和保真度。
Feb, 2020