神经网络训练中异常特征的理解和最小化

May, 2024

神经网络训练中异常特征的理解和最小化

Understanding and Minimising Outlier Features in Neural Network Training

Bobby He, Lorenzo Noci, Daniele Paliotta, Imanol Schlag, Thomas Hofmann

TL;DR深入研究在神经网络训练中为什么会出现异常特征（Outlier Features），如何最小化它们的影响，并提出了预防措施，包括量化指标、架构选择、信号传播控制等。

Abstract

outlier features (OF) are neurons whose activation magnitudes significantly exceed the average over a neural network's (NN) width. They are well known to emerge during standard transformer training and have the u

outlier features neural network quantisation architectural choices signal propagation

发现论文，激发创造

理解特征规范用于离群检测

研究发现，神经网络在训练分类数据集时，隐藏层特征的向量范数对于属于分布内的样本通常更高，而对于分布外的未知样本较低。解析神经网络中的中间层所隐藏的判别结构后，发现特征范数是网络层中的分类器隐藏的置信值，特征范数是一种类不可知的，可以检测各种判别模型下分布外样本的方法。然而传统的特征范数无法捕捉到隐藏层神经元的去激活倾向，可能会将分布内样本误识别为分布外实例。为了解决这个问题，提出了一种新的负向感知范数 (NAN)，能够捕捉到隐藏层神经元的激活和去激活倾向。在 NAN 上进行了广泛的实验，证明了它的效果和与现有分布外检测器的兼容性，以及在无标签环境中的能力。

Oct, 2023

探索特征学习在越界泛化中的作用

通过理论研究发现，EMR 本质上学习了误差特征和不变特征，并且在 EMR 预训练期间学习的特征质量显着影响了最终的 OOD 性能。为了解决这个问题，我们提出了特征增强训练（FAT），通过保留已经学习到的特征并增加新的特征来强制模型学习所有有用的特征，并在不同子集的训练数据上执行保留和增强操作。广泛的实验表明，当应用于各种目标时，FAT 有效地学习更丰富的特征并持续改善 OOD 性能。

Apr, 2023

异常数据对神经网络优化的影响

我们揭示了神经网络优化中的新现象，其由深度和自然数据中特定重尾结构的相互作用产生。通过实验证明，在训练数据中具有相反信号的成对异常值对网络输出具有显著影响，并描述了如何识别和研究其对网络优化和行为的影响。我们的发现为训练行为提供了新的定性预测，并为随机优化方法的研究和改进提供了新的视角。

Nov, 2023

T2FNorm：用于 OOD 检测的极其简单的缩放训练期特征归一化

通过引入 T2FNorm 方法，在保持神经网络准确度的情况下，显著提高了进行 Out-of-Distribution 检测的精度，并有助于解决神经网络的过度自信问题。

May, 2023

BERT 破坏者：干扰变换器的异常维度

本文发现虽然大多数研究查明 Transformer 是极为健壮的（指对剪枝的容忍度很高），但预先训练好的 Transformer 编码器对于在层输出中删除非常少的要素（模型权重的 < 0.0001%）却异常脆弱。本文发现，对于 BERT 和其他一些预先训练的编码器 Transformer，受影响的组件是 LayerNorm 中的缩放因子和偏差（scaling factors and biases），异常值是在预先训练中早期出现的高幅度归一化参数，并在整个模型中保持相同的维度位置。我们表明，禁用这些异常值显著降低了 MLM 损失和下游任务的性能。这种影响观察到 BART、XLNet、ELECTRA 等几个 BERT 类型的模型和其他流行的预先训练的 Transformer 架构中，也在 GPT-2 中展现了类似效应。

May, 2021

利用重要神经元进行线外检测 (LINe)

提出了一种新的基于神经元分析的方法，Leveraging Important Neurons (LINe)，通过使用 Shapley 值剪枝和激活截断等方法实现后置 OOD 检测。在 CIFAR-10，CIFAR-100 和 ImageNet 测试数据上，该方法表现出比其他现有后置 OOD 检测方法更高的有效性。

Mar, 2023

利用特征规范进行异常检测的块选择方法

本研究提出了一种简单的框架，其中通过使用特征图的范数和范数比率测量每个块的 OOD 检测性能，并使用拼图图像作为伪 OOD, 来选择提供最大区别的块，并展示了我们的框架可以泛化到各种体系结构并提高先前的 OOD 检测方法的性能。

Dec, 2022

提高泛化性能的特征提取器后训练

该研究开发了一种训练算法：后特征提取器，该算法可更新已经训练好的深度模型的特征提取器部分，以搜索更平的最小值，通过对高层参数空间的参数扰动进行训练，提高了模型在 CIFAR-10、CIFAR-100 和 SVHN 数据集上的表现。

Jul, 2022

基于神经网络的机器学习中的最佳特征缩放

该论文提出了一种新的方法，利用遗传算法对输入特征进行最佳重新缩放，从而提高前馈神经网络的训练效率和泛化性能，并通过多次尝试初始化第一层权重，实现了全局搜索算法，从而促进了全局最小值的实现。

Feb, 2024

神经元激活覆盖度：重新审视区分与泛化

本文提出了一种神经元激活覆盖度（NAC）概念，并通过研究神经元行为以区分 InD 和 OOD 数据，打破了 ResNet-50 FPR95 记录并提出了 NAC 标准以评估模型健壮性。

Jun, 2023