通过基于人类实验协议评估自我注意力的解释性

Mar, 2023

通过基于人类实验协议评估自我注意力的解释性

Evaluating self-attention interpretability through human-grounded experimental protocol

Milan Bhan, Nina Achache, Victor Legrand, Annabelle Blangero, Nicolas Chesneau

TL;DR本文提出了一种新的基于注意力机制的可解释性方法，通过计算 Transformer 模型中与分类任务相关部分的注意力系数分布来评估每个单词的可解释性得分，实验结果证明这种方法在提供解释方面与常规方法相当。研究还发现，自注意力可以包含丰富的信息来解释 Transformer 分类器。

Abstract

attention mechanisms have played a crucial role in the development of complex architectures such as transformers in natural language processing. However, →

attention mechanisms transformers interpretability classification self-attention

发现论文，激发创造

重新思考自注意力：朝向神经解析可解释性

本研究提出了标签关注层，一种新的自注意形式，其中关注头表示标签。运行实验并在 Penn Treebank（PTB）和中文 Treebank 上展示出其在词法句法分析方面的最新成果，标签关注层在该实验中表现出了更好的性能，相比现有工作需要较少的自我注意层数。最后，我们发现标签注意头学习了语法类别之间的关系，并显示了分析错误的路径。

Nov, 2019

预训练 Transformer 中自注意力的因果解释

我们提出了 Transformer 神经网络结构中自注意力的因果解释。我们将自注意力解释为一种机制，用于估计给定输入符号（标记）序列的结构方程模型。结构方程模型可以被解释为输入序列特定上下文下的输入符号的因果结构。与潜在混淆变量相比，该解释仍然有效。根据此解释，我们通过计算最深层注意力中相应表示之间的偏相关来估计输入符号之间的条件独立关系。这使得能够使用现有的基于约束的算法学习输入序列上的因果结构。从这个意义上讲，现有的预训练 Transformer 可被用于零样本因果发现。我们通过为两个任务（自然语言处理的情感分类和推荐）中的 Transformer 结果提供因果解释来演示这种方法。

Oct, 2023

文本分类中基于 Transformer 多重注意力解释的忠实仲裁：针对每个决策都有的注意力矩阵

该文章提出了一种基于注意力的可解释性技术，可在维持模型性能和减少计算复杂度的同时提高模型的解释性。与此同时，还引入了一种更适用于 transformer 模型的忠实度度量标准，并在七组数据集中进行了定量和定性实验验证其实用价值。

Sep, 2022

人类引导下解释性注意力模式在摘要和主题分割中的应用

该论文介绍了一种结合人机交互的流程来发现重要的任务特定的注意力模式，然后注入到原始模型和较小的模型来提高模型的准确性与效率，取得了在提取式摘要和主题分割方面显著提高的结果。

Dec, 2021

解释性人工智能在自然语言处理中的评估评价

本文在两种 NLP 任务和两种模型上，比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性，并发现注意力方法与其他特征归属方法的关联度较低，建议停止使用等级相关性作为注意力解释的评估指标。

May, 2022

自注意力归因：解释 Transformer 内部的信息交互

本文提出了一种自我注意力归因方法，通过对 BERT 等模型进行广泛的研究，发现这种方法能够用于识别重要的注意力头，构建注意力树，揭示变压器内的分层交互，以及可用作敌对模式实现非定向攻击。

Apr, 2020

注意力是否等同于解释？基于集合的量化评估

本文提出在集合学习中研究注意力机制的可解释性，通过建立多种数据模态下的合成数据集，对注意力基于重要实例的解释进行系统评估，发现注意力分布通常反映了个体实例的相对重要性，但是也存在不符合预期的情况，因此本文建议使用集成方法最小化基于注意力的误导性解释的风险。

Jul, 2022

有效的注意力揭示解释性

该研究使用 GLUE 任务和 BERT，比较了标准注意力和有效注意力矩阵对于解释语言建模预训练和语言特征的差异，并发现有效注意力更加相关于最终任务的解决，推荐使用有效注意力更贴近设计目标。

May, 2021

超越注意力可视化的 Transformer 可解释性

本研究提出了一种基于 Deep Taylor Decomposition 原则的计算 Transformer 网络相关性的方法，通过注意力层和跳跃连接进行传播，并通过基于图像分类和文本分类问题的测试表明其在解释性方面优于现有方法。

Dec, 2020

通过加权相关累加实现通用注意力模型的解释性

我们提出了一种加权相关性策略，考虑了令牌值的重要性，以减少在平等累积相关性时的失真。通过 CLIP 编码器和后续的映射器，我们提出了统一的基于 CLIP 的两阶段模型，命名为 CLIPmapper，用于处理视觉和语言任务，通过自注意、交叉注意、单模态和交叉模态注意，这使得我们的通用可解释性方法更加合适。对视觉问答和图像字幕进行的广泛扰动测试证实了我们的可解释性方法优于现有的方法。

Aug, 2023