在脱轨损失及其之外的动力学下

Dec, 2023

On the Dynamics Under the Unhinged Loss and Beyond

Xiong Zhou, Xianming Liu, Hanzhang Wang, Deming Zhai, Junjun Jiang...

TL;DR最近的研究重点研究了深度学习中的隐性偏差，特别是最后一层特征和分类器权重的行为。本文引入了简明的无约束损失函数，提供了更多数学机会来分析封闭动态，同时尽可能少地进行简化或假设。无约束损失允许考虑更多实际技术，如变化的学习率和特征归一化。通过将最后一层特征视为自由优化变量的层剥模型，我们在无约束、正则化、球面约束和神经切向核保持不变的情况下进行了彻底分析。我们研究了将无约束损失与交叉熵（CE）的性能联系起来的情况，其中分类器权重采用特定结构（如简单赫尔曼紧束框架）进行固定。我们的分析表明，这些动态按指数速度收敛到解，这取决于特征和分类器权重的初始化。这些理论结果不仅提供了有价值的见解，包括显式特征正则化和调整学习率以增强无约束损失实际训练的可行性，还将其适用性扩展到其他损失函数。最后，我们通过大量实验证明了这些理论结果和见解。

Abstract

Recent works have studied implicit biases in deep learning, especially the behavior of last-layer features and classifier weights. However

implicit biases deep learning unhinged loss neural tangent kernel classifier weights

发现论文，激发创造

无限制特征下神经崩溃的几何分析

我们提供了关于神经网络结构中神经崩溃现象的全局优化景观分析，发现交叉熵损失在没有约束条件的特征模型中存在良性全局景观，其中 Simplex ETFs 是唯一的全局最小值，并且我们的实验表明可以通过设置特征维度等于类别数并将最后一层分类器固定为 Simplex ETF 来降低内存使用量。

May, 2021

基于无约束 ReLU 特征模型的交叉熵类不平衡学习的神经倒塌

在该研究中，我们将神经坍缩现象推广到不平衡类别的交叉熵损失下，证明了虽然类内特征会坍缩，但类均值将收敛到长度不同的正交向量结构，并发现分类器权重与类均值的缩放和居中相关，这扩展了在平衡类别设置下的神经坍缩现象。通过在实际架构和数据集上进行实验证明了我们的结果。

Jan, 2024

神经坍塌的无约束分层剖析视角

本文研究神经网络的一种几何模式 —— 神经坍塌现象。我们提出了一个模型 —— 无约束层剥模型（ULPM），证明了该模型的梯度流收敛到一个最小范数分离问题的临界点，表现出全局最小化时神经坍塌现象。此外，我们还表明，采用交叉熵损失函数的 ULPM 具有良好的全局景观，所有临界点都是严格鞍点，除全局最小值外不发生神经坍塌现象。我们的实验证明，即使不使用显式正则化或权重衰减，我们的结果也适用于神经网络的实际任务训练。

Oct, 2021

深度学习训练不稳定性的损失曲率视角

本论文探究了损失海森矩阵在多项分类任务中的演化，以了解损失曲率对训练动态的影响。结果表明，成功的模型和超参数选择能够使早期的优化轨迹避免或穿越高曲率区域并进入扁平区域，提高学习率稳定性，类似于各种训练不稳定性缓解策略最终解决神经网络优化的相同失效模式，即差的条件。

Oct, 2021

无约束特征模型下的神经塌陷问题

本研究通过在不受约束的特征模型背景下，研究了交叉熵损失函数下不平衡数据的神经崩溃现象，发现特征向量在同一类中收敛为相同的平均向量，并确定了少数类崩溃的临界阈值，并且结果表明，数据大小不平衡的影响随着样本大小的增长而减小。实验结果验证了理论分析。

Sep, 2023

深度线性无约束特征模型在深度学习中统一低维观测

现代深度神经网络在各种任务中取得了高性能，研究人员最近注意到这些网络的权重、Hessian 矩阵、梯度和特征向量中存在低维结构，这种低维结构在不同的数据集和架构上进行训练时都能观察到。在本文中，我们在理论上证明了这些观察结果的发生，并展示了如何在一个可以被分析地考虑的广义非约束特征模型中统一这些观察结果。特别地，我们考虑了一种先前描述的结构，称为神经坍缩，以及它的多层对应物，即深度神经坍缩，在网络接近全局最优解时出现。这种现象解释了观察到的其他低维行为，比如在 Hessian 谱中观察到的批量和离群结构，以及梯度下降与 Hessian 的离群特征空间的对齐。深度线性非约束特征模型及其非线性等效模型的经验结果支持了这些预测的观察结果。

Apr, 2024

探索深度神经网络崩溃的扩展无约束特征模型

本研究旨在进一步分析和扩展无约束特征模型（UFM）。我们发现，通过将另一层权重以及 ReLU 非线性加入模型，可以更好地描述神经崩溃现象，同时得出了一些实用的结论。

Feb, 2022

深度神经网络的学习动态

研究深度神经网络的学习动态，主要关注于二元分类问题。我们证明了网络学习的各种性质，并且在非线性架构下，分类误差也呈现出 sigmoid 形状，证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响，并探讨了交叉熵和 hinge 损失对生成对抗网络训练的差异。最后，我们提出了梯度饥饿现象并进行了研究。

Sep, 2018

对称标签噪声下的学习：不羁的重要性

本研究提出了一种凸，分类校正损失并证明它是 SLN - 稳健的。该损失通过负无限来避免先前的结果，并且实验证明了 unhinged loss 的 SLN - 鲁棒性。

May, 2015

Hinge-Wasserstein: 通过分类降低回归的过度自信

本篇论文提出了一种基于 Wasserstein 距离的损失函数 (hinge-Wasserstein)，用于解决深度神经网络训练过程中的置信度过高问题，可以提升模型对两种不确定性的估计能力，并在 Horizon Lines in the Wild 数据集上取得显著的误差减小效果。

Jun, 2023