预训练 Transformer 中自注意力的因果解释

Oct, 2023

预训练 Transformer 中自注意力的因果解释

Causal Interpretation of Self-Attention in Pre-Trained Transformers

Raanan Y. Rohekar, Yaniv Gurwicz, Shami Nisimov

TL;DR我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制，用于估计给定输入符号（标记）序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比，该解释仍然有效。根据此解释，我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲，现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务（自然语言处理的情感分类和推荐）中的 Transformer 结果提供因果解释来演示这种方法。

Abstract

We propose a causal interpretation of self-attention in the Transformer neural network architecture. We interpret self-attention as a mechanism that estimates a →

self-attention transformer neural network structural equation model causal structure zero-shot causal-discovery

发现论文，激发创造

基于梯度下降的 Transformer 网络学习因果结构

通过梯度下降优化算法，变压器模型通过自注意机制在第一个注意力层中编码潜在的因果图，从而学习了因果结构。

Feb, 2024

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

使用自我关注实现可解释的音乐标记

提出了一种基于自注意力机制的深度序列模型，用于解决音乐信息检索问题，并且相比于传统的卷积和递归神经网络方法，该模型更具可解释性且具有竞争力的结果。

Jun, 2019

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

自注意力机制下的下一个标记预测机制

自我注意力机制通过梯度下降训练能够学习自动生成下一个标记符号的自动机，其中学习步骤分为硬检索和软组合，梯度下降隐式地发现强连接组件并选择高优先级组件，以加工序列数据。

Mar, 2024

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

变形金刚中的注意力流量量化

本文提出两种方法 —— 注意力展开和注意力流 —— 用于近似计算相对于输入令牌的注意力权重，以解决在 Transformer 模型中，由不同令牌产生不同的信息流动混合，使得注意力权重不可靠作为解释探针的问题。与原始注意力相比，这两种方法均具有更高的输入梯度基于消融法重要性评分相关性。

May, 2020

Transformer 中的可识别性

研究 Transformer 模型中的自注意力和语境嵌入等核心组件，提出了有效关注作为解释注意力的补充工具，展示了输入标记在模型中保持其身份，并发现身份信息主要编码在嵌入的角度中，并且随着深度的增加而逐渐降低，同时利用梯度归因方法展示了输入信息在产生语境嵌入时的强烈混合，最终展示了更好地理解和进一步研究 Transformer 模型所需的工具。

Aug, 2019

Transformer 模型是否显示出与任务特定的人类凝视类似的注意力模式？

通过比较两个任务特定的阅读数据集，研究表明，大规模预训练自注意力模型对于人类注意力的预测能力依赖于罕见语境的句法性质，而任务特定的微调不增加与人类阅读的相关性，并且通过输入减少实验给出了互补信息，表明低熵的注意向量更为可靠。

Apr, 2022