为什么关注机制可能无法解释？

KDDJun, 2020

Why Attentions May Not Be Interpretable?

Bing Bai, Jian Liang, Guanhua Zhang, Hao Li, Kun Bai...

TL;DR本文讨论了 Attention-based methods 在模型中的解释性作用，指出了 recent research 发现的 attention-as-importance interpretations 的局限性，即注意力权重本身可能具有额外的信息导致现象的发生，我们通过理论分析和实验展示了这个问题的存在，提出了两种缓解这个问题的方法，并在实验中证明这些方法能有效地提高 Attention 机制的可解释性。

Abstract

attention-based methods have played important roles in model interpretations, where the calculated attention weights are expected to highlight the critical parts of inputs~(e.g., keywords in sentences). However,

attention-based methods interpretation attention weights combinatorial shortcuts interpretability

发现论文，激发创造

注意力是否可解释？

测试加权输入组件的注意机制对于模型预测的影响，发现虽然注意机制可以预测输入组件的相对重要性，但并非绝对准确的指标。

Jun, 2019

注意力不等于解释

通过多个 NLP 任务的广泛实验，发现学习的注意力权重往往与基于梯度的特征重要性测量之间存在不相关性，表明标准的注意力模块并不能提供有意义的解释并且不应该被视为能够提供这种解释。

Feb, 2019

从信息论的角度重新思考注意力权重作为解释

在信息理论的角度下，论文研究了不同类型的注意力机制在保留信息和解释模型输入方面的表现，并得出了一些结论。

Oct, 2022

可解释性之间的大象：既然有显著性方法，为什么要使用关注力作为解释？

本论文论述了在模型解释方面，关注度是否能够用作模型预测的解释存在争议，因为关注度虽然能够在每个输入令牌上提供一个权重，但往往不清楚它用作解释的目标是什么。作者认为，对于寻找与预测结果最相关的输入令牌并且解释的用户是模型开发人员的目标和用户，输入显著性方法更为合适，没有强有力的理由使用关注度。所以，本文提出应将注意力从关注度转向输入显著性方法，并要求作者明确解释的目标和用户。

Oct, 2020

解释性人工智能在自然语言处理中的评估评价

本文在两种 NLP 任务和两种模型上，比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性，并发现注意力方法与其他特征归属方法的关联度较低，建议停止使用等级相关性作为注意力解释的评估指标。

May, 2022

注意力是否等同于解释？基于集合的量化评估

本文提出在集合学习中研究注意力机制的可解释性，通过建立多种数据模态下的合成数据集，对注意力基于重要实例的解释进行系统评估，发现注意力分布通常反映了个体实例的相对重要性，但是也存在不符合预期的情况，因此本文建议使用集成方法最小化基于注意力的误导性解释的风险。

Jul, 2022

跨 NLP 任务的注意力可解释性

本文旨在通过一系列的 NLP 任务，人工评估实验等方式，全面解释神经网络模型中的注意力机制的可解释性，并证明了注意力的可解释性验证了两种观点。

Sep, 2019

基于注意力解释的欺骗学习

本研究提出一种简单方法，通过训练模型生成欺骗性的注意力掩码，从而质疑注意机制的可靠性，因为通过操纵注意权重，即使我们可以证明模型仍然依赖这些特征来驱动预测，我们的方法会减少指定的不允许的标记被分配的总权重。通过人类研究，我们展示了我们操作注意力的解释会欺骗人们认为偏见的模型的预测不依赖性别，从而对注意力在公平性和问责制的算法审计工具上的可靠性产生怀疑。

Sep, 2019

关注力并非解释

Attention mechanisms 在 NLP 系统中扮演着重要角色，在重熙神经网络 (RNN) 模型中特别如此。本研究挑战了最近一篇质疑 “Attention 不是 Explanation” 的论文，并提出了四项替代性测试，以确定 Attention 是否可以用作 Explanation，并为每个测试提供有意义的 Attention 机制解释。最终的解释是此前的研究不能否定 Attention 机制的可解释性。

Aug, 2019

坚持承诺：（如何）让注意力成为解释？

研究关注机制在 NLP 中的应用，提出了一个针对循环网络序列分类任务中存在的问题的解决方法，并给出了证明，说明关注机制可以提供循环模型的可靠解释。

May, 2020