Transformer 中的可识别性

ICLRAug, 2019

On Identifiability in Transformers

Gino Brunner, Yang Liu, Damián Pascual, Oliver Richter, Massimiliano Ciaramita...

TL;DR研究 Transformer 模型中的自注意力和语境嵌入等核心组件，提出了有效关注作为解释注意力的补充工具，展示了输入标记在模型中保持其身份，并发现身份信息主要编码在嵌入的角度中，并且随着深度的增加而逐渐降低，同时利用梯度归因方法展示了输入信息在产生语境嵌入时的强烈混合，最终展示了更好地理解和进一步研究 Transformer 模型所需的工具。

Abstract

In this paper we delve deep in the transformer architecture by investigating two of its core components: self-attention and contextual embeddings

transformer self-attention contextual embeddings attention weights input tokens

发现论文，激发创造

文本分类更具识别性与性能同样优秀的 Transformer

本研究提供了更深入的理论分析和经验观察来确定 Transformer 模型中 attention 权重的可辨识性，我们发现 attention 权重比我们目前的认知更可辨识。为了解决权重的不唯一问题，我们提供了一种解耦键向量和值向量之间关系的编码器层的变体，并证明了这种变体的实用性和正确性，该实验在不同的文本分类任务中得到了提供。

Jun, 2021

变形金刚中的注意力流量量化

本文提出两种方法 —— 注意力展开和注意力流 —— 用于近似计算相对于输入令牌的注意力权重，以解决在 Transformer 模型中，由不同令牌产生不同的信息流动混合，使得注意力权重不可靠作为解释探针的问题。与原始注意力相比，这两种方法均具有更高的输入梯度基于消融法重要性评分相关性。

May, 2020

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

测量 Transformer 中上下文信息的混合

该论文提出了一种名为 ALTI 的方法，通过考虑注意力模块（multi-head attention, residual connection and layer normalization）以及定义一种新的度量方法来测量各层之间的令牌交互，从而提供更准确的输入归因分数以解释模型预测，在实验中显示 ALTI 比基于梯度方法更好地提供了模型预测的解释，提高了模型的鲁棒性。

Mar, 2022

视觉 Transformer 中查询 - 键交互的解析

通过奇异值分解研究图像视觉变换器中的自注意力机制，发现早期层更倾向于关注相似的标记，而后期层则更多地注意不相似的标记，这些奇异值表示的特征之间的相互作用具有可解释性，从而为理解转换器模型在处理图像时如何利用上下文和显著特征提供了新的解释角度。

Apr, 2024

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

直接语言翻译中注意力的局部性

本文讨论了自我注意力（self-attention）在直接语音翻译中的应用。通过分析编码器中自我注意力的逐层令牌贡献，发现了局部对角线模式，并提出用局部高效的自我注意力替代标准自我注意力，通过跳过标准自我注意力废弃的权重来提高模型的效率，但仍保持与基线性能相同。

Apr, 2022

预训练 Transformer 中自注意力的因果解释

我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制，用于估计给定输入符号（标记）序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比，该解释仍然有效。根据此解释，我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲，现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务（自然语言处理的情感分类和推荐）中的 Transformer 结果提供因果解释来演示这种方法。

Oct, 2023

自注意力动态中群集的出现

本文将 Transformer 视为相互作用的粒子系统，描述了当权重不随时间变化时，学习表示的几何特征，证明了表示中的粒子会在时间趋于无穷时聚集到特定的极限对象，这取决于值矩阵的谱。同时，在一维情况下，证明了自我关注矩阵收敛于低秩布尔矩阵。这些结果的组合在数学上证实了 Vaswani 等人的经验观察，即在 Transformers 处理一系列标记时会出现 “leader”。

May, 2023

变压器中的注意力 - 相似度关系

我们分析了大型语言模型（LLMs）如何表示上下文之外的单词，研究它们依赖所给上下文来捕捉其语义的情况。我们的文本扰动指导了似然性，揭示了变形器模型中令牌似然性和注意力值之间的相关性。广泛的实验表明，意外的令牌会导致模型不太关注来自自身的信息以计算它们的表示，特别是在较高的层次上。这些发现对于评估 LLMs 在真实世界场景中的鲁棒性具有重要的影响。

Mar, 2023