透明可解释的注意力模型

ACLApr, 2020

Towards Transparent and Explainable Attention Models

Akash Kumar Mohankumar, Preksha Nema, Sharan Narasimhan, Mitesh M. Khapra, Balaji Vasan Srinivasan...

TL;DR本文研究基于 LSTM 的编码器的注意力机制的可解释性问题，发现现有的注意力机制不能提供清晰的解释，因为同步隐藏状态之间的高相关性使得注意权重缺乏了传达重要信息的能力。为了使注意力机制更为可信和可解释，作者提出一种基于多样性驱动的训练目标修改 LSTM 结构，实现不同时步的隐藏状态的多样化，以提高注意力分布的质量和可解释性。

Abstract

Recent studies on interpretability of attention distributions have led to notions of faithful and plausible explanations for a model's predictions. Attention distributions can be considered a faithful explanation if a higher attention weight implies a greater impact on the model's pred

attention mechanisms lstm interpretabilty explanation diversity-driven training

发现论文，激发创造

注意力不等于解释

通过多个 NLP 任务的广泛实验，发现学习的注意力权重往往与基于梯度的特征重要性测量之间存在不相关性，表明标准的注意力模块并不能提供有意义的解释并且不应该被视为能够提供这种解释。

Feb, 2019

坚持承诺：（如何）让注意力成为解释？

研究关注机制在 NLP 中的应用，提出了一个针对循环网络序列分类任务中存在的问题的解决方法，并给出了证明，说明关注机制可以提供循环模型的可靠解释。

May, 2020

基于注意力解释的欺骗学习

本研究提出一种简单方法，通过训练模型生成欺骗性的注意力掩码，从而质疑注意机制的可靠性，因为通过操纵注意权重，即使我们可以证明模型仍然依赖这些特征来驱动预测，我们的方法会减少指定的不允许的标记被分配的总权重。通过人类研究，我们展示了我们操作注意力的解释会欺骗人们认为偏见的模型的预测不依赖性别，从而对注意力在公平性和问责制的算法审计工具上的可靠性产生怀疑。

Sep, 2019

解释性人工智能在自然语言处理中的评估评价

本文在两种 NLP 任务和两种模型上，比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性，并发现注意力方法与其他特征归属方法的关联度较低，建议停止使用等级相关性作为注意力解释的评估指标。

May, 2022

利用任务特定信息提高基于注意力解释的文本分类中的忠诚度

本文提出了一种新型的 TaSc 机制，学习任务特定的非上下文信息以扩展原始的 Attention 权重，通过评估测试，证明 TaSc 可以提高 Attention 解释在两种注意机制，五个编码器和五个文本分类数据集上的解释品质而不牺牲预测性能，并且相对于三种广泛使用的可解释性技术，TaSc 一致提供更加忠实的 Attention 解释。

May, 2021

关注力并非解释

Attention mechanisms 在 NLP 系统中扮演着重要角色，在重熙神经网络 (RNN) 模型中特别如此。本研究挑战了最近一篇质疑 “Attention 不是 Explanation” 的论文，并提出了四项替代性测试，以确定 Attention 是否可以用作 Explanation，并为每个测试提供有意义的 Attention 机制解释。最终的解释是此前的研究不能否定 Attention 机制的可解释性。

Aug, 2019

跨 NLP 任务的注意力可解释性

本文旨在通过一系列的 NLP 任务，人工评估实验等方式，全面解释神经网络模型中的注意力机制的可解释性，并证明了注意力的可解释性验证了两种观点。

Sep, 2019

从信息论的角度重新思考注意力权重作为解释

在信息理论的角度下，论文研究了不同类型的注意力机制在保留信息和解释模型输入方面的表现，并得出了一些结论。

Oct, 2022

通过忠实度违规测试重新思考注意力模型可解释性

本文发现注意力解释的一个关键限制：弱点在于识别特征影响的极性。为此，作者提出了一个行动诊断方法来量化解释权重与影响极性之间的一致性，并通过大量实验表明，大多数测试的解释方法都意外受到忠诚度违反问题的阻碍，特别是原始的关注力。

Jan, 2022

文本分类更具识别性与性能同样优秀的 Transformer

本研究提供了更深入的理论分析和经验观察来确定 Transformer 模型中 attention 权重的可辨识性，我们发现 attention 权重比我们目前的认知更可辨识。为了解决权重的不唯一问题，我们提供了一种解耦键向量和值向量之间关系的编码器层的变体，并证明了这种变体的实用性和正确性，该实验在不同的文本分类任务中得到了提供。

Jun, 2021