BERT 破坏者：干扰变换器的异常维度

ACLMay, 2021

BERT 破坏者：干扰变换器的异常维度

BERT Busters: Outlier Dimensions that Disrupt Transformers

Olga Kovaleva, Saurabh Kulshreshtha, Anna Rogers, Anna Rumshisky

TL;DR本文发现虽然大多数研究查明 Transformer 是极为健壮的（指对剪枝的容忍度很高），但预先训练好的 Transformer 编码器对于在层输出中删除非常少的要素（模型权重的 < 0.0001%）却异常脆弱。本文发现，对于 BERT 和其他一些预先训练的编码器 Transformer，受影响的组件是 LayerNorm 中的缩放因子和偏差（scaling factors and biases），异常值是在预先训练中早期出现的高幅度归一化参数，并在整个模型中保持相同的维度位置。我们表明，禁用这些异常值显著降低了 MLM 损失和下游任务的性能。这种影响观察到 BART、XLNet、ELECTRA 等几个 BERT 类型的模型和其他流行的预先训练的 Transformer 架构中，也在 GPT-2 中展现了类似效应。

Abstract

Multiple studies have shown that transformers are remarkably robust to pruning. Contrary to this received wisdom, we demonstrate that pre-trained Transformer encoders are surprisingly fragile to the removal of a very small number of features in the layer outputs (<0.0001% of model weig

transformers pre-training layernorm bert-family models downstream task performance

发现论文，激发创造

离群维度扰乱变压器的原因是频率驱动

通过相关研究表明，Transformer-based 语言模型对剪枝通常非常强壮，但存在异常现象：仅禁用 BERT-base 的 110M 个参数中的 48 个，MNLI 的性能就下降了近 30％。该现象被认为与嵌入空间的几何形状有关，并且为减少未来模型中的异性提供了线索。

May, 2022

预训练中去除异常值是一餐免费午餐吗？

通过引入一个新的 softmax 函数，该方法通过处理异常值，使模型适配量化，且能成功预训练因果语言模型。

Feb, 2024

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

预训练转换器提高超出分布鲁棒性

本文通过构建具有现实分布变化的新的鲁棒性基准，系统地测量了七个 NLP 数据集的预训练 Transformers 的 OOD 泛化能力。研究结果表明，Pretrained Transformers 的性能下降显著较小，在检测异常或 OOD 示例方面更加有效，同时发现更多样化的预训练数据可以增强模型的鲁棒性。

Apr, 2020

异常维度编码专业知识

大型语言模型中的离群维度对于嵌入表示的质量具有不利影响，但它们可以编码关键的任务特定知识，并驱动下游模型决策。

Oct, 2023

Outlier Suppression+: 大型语言模型的等效最佳移位和缩放准确量化

提出一种 Outlier Suppression + 的框架，其中采用了 channel-wise shifting 技术和 scaling 操作用于消除 transformer 语言模型中的异常值，并通过实验表明该框架在 8 比特和 6 比特设置下能够在不降低性能的前提下实现近似浮点性能水平，在 4 比特 BERT 上实现了新的最优性能。

Apr, 2023

可量化的 Transformer 模型：通过助于自注意力机制头部不做多余操作消除异常值

研究人员提出了两种 Attention 机制的变化：Clipped softmax 和 Gated attention，它们可以帮助模型学习更小的异常值。利用这些变化，模型可以进行完整的 INT8 激活量化而无需额外的努力。

Jun, 2023

你的 Transformer 其实是线性的

该研究揭示了一种新颖的线性特性，仅限于 Transformer 解码器，包括 GPT、LLaMA、OPT、BLOOM 等模型。我们分析了顺序层之间的嵌入变换，揭示出几乎完美的线性关系（Procrustes 相似度得分为 0.99）。然而，由于 Transformer 层输出的一致较低的范数，残差成分被移除后，线性度下降。我们的实验证明，移除或线性逼近一些最线性的 transformer 模块对损失或模型性能没有明显影响。此外，在我们的小型模型的预训练实验中，我们引入了基于余弦相似性的正则化，旨在降低层的线性度。这种正则化改善了 Tiny Stories 和 SuperGLUE 等基准测试的性能指标，并成功降低了模型的线性度。该研究挑战了现有对 Transformer 架构的理解，表明它们的操作可能比之前认为的更加线性。

May, 2024

使用预训练转换器进行人类级自然语言处理的实证评估：样本大小和维度的作用

本文系统研究了在人类级别 NLP 任务如何通过降维方法及向量嵌入维度与样本大小来提高预测性能，其中 RoBERTa 模型在使用 PCA 降维时处理长文本用户表现更佳，大多数任务仅需 1/12 的向量嵌入维度即可达到最佳表现。

May, 2021

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022