注意力不等于解释

ACLFeb, 2019

Attention is not Explanation

Sarthak Jain, Byron C. Wallace

TL;DR通过多个 NLP 任务的广泛实验，发现学习的注意力权重往往与基于梯度的特征重要性测量之间存在不相关性，表明标准的注意力模块并不能提供有意义的解释并且不应该被视为能够提供这种解释。

Abstract

attention mechanisms have seen wide adoption in neural nlp models. In addition to improving predictive performance, these are often touted

attention mechanisms neural nlp models transparency explanations predictive performance

发现论文，激发创造

关注力并非解释

Attention mechanisms 在 NLP 系统中扮演着重要角色，在重熙神经网络 (RNN) 模型中特别如此。本研究挑战了最近一篇质疑 “Attention 不是 Explanation” 的论文，并提出了四项替代性测试，以确定 Attention 是否可以用作 Explanation，并为每个测试提供有意义的 Attention 机制解释。最终的解释是此前的研究不能否定 Attention 机制的可解释性。

Aug, 2019

注意力是否可解释？

测试加权输入组件的注意机制对于模型预测的影响，发现虽然注意机制可以预测输入组件的相对重要性，但并非绝对准确的指标。

Jun, 2019

坚持承诺：（如何）让注意力成为解释？

研究关注机制在 NLP 中的应用，提出了一个针对循环网络序列分类任务中存在的问题的解决方法，并给出了证明，说明关注机制可以提供循环模型的可靠解释。

May, 2020

从信息论的角度重新思考注意力权重作为解释

在信息理论的角度下，论文研究了不同类型的注意力机制在保留信息和解释模型输入方面的表现，并得出了一些结论。

Oct, 2022

解释性人工智能在自然语言处理中的评估评价

本文在两种 NLP 任务和两种模型上，比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性，并发现注意力方法与其他特征归属方法的关联度较低，建议停止使用等级相关性作为注意力解释的评估指标。

May, 2022

基于注意力解释的欺骗学习

本研究提出一种简单方法，通过训练模型生成欺骗性的注意力掩码，从而质疑注意机制的可靠性，因为通过操纵注意权重，即使我们可以证明模型仍然依赖这些特征来驱动预测，我们的方法会减少指定的不允许的标记被分配的总权重。通过人类研究，我们展示了我们操作注意力的解释会欺骗人们认为偏见的模型的预测不依赖性别，从而对注意力在公平性和问责制的算法审计工具上的可靠性产生怀疑。

Sep, 2019

为什么关注机制可能无法解释？

本文讨论了 Attention-based methods 在模型中的解释性作用，指出了 recent research 发现的 attention-as-importance interpretations 的局限性，即注意力权重本身可能具有额外的信息导致现象的发生，我们通过理论分析和实验展示了这个问题的存在，提出了两种缓解这个问题的方法，并在实验中证明这些方法能有效地提高 Attention 机制的可解释性。

Jun, 2020

透明可解释的注意力模型

本文研究基于 LSTM 的编码器的注意力机制的可解释性问题，发现现有的注意力机制不能提供清晰的解释，因为同步隐藏状态之间的高相关性使得注意权重缺乏了传达重要信息的能力。为了使注意力机制更为可信和可解释，作者提出一种基于多样性驱动的训练目标修改 LSTM 结构，实现不同时步的隐藏状态的多样化，以提高注意力分布的质量和可解释性。

Apr, 2020

跨 NLP 任务的注意力可解释性

本文旨在通过一系列的 NLP 任务，人工评估实验等方式，全面解释神经网络模型中的注意力机制的可解释性，并证明了注意力的可解释性验证了两种观点。

Sep, 2019

可解释性之间的大象：既然有显著性方法，为什么要使用关注力作为解释？

本论文论述了在模型解释方面，关注度是否能够用作模型预测的解释存在争议，因为关注度虽然能够在每个输入令牌上提供一个权重，但往往不清楚它用作解释的目标是什么。作者认为，对于寻找与预测结果最相关的输入令牌并且解释的用户是模型开发人员的目标和用户，输入显著性方法更为合适，没有强有力的理由使用关注度。所以，本文提出应将注意力从关注度转向输入显著性方法，并要求作者明确解释的目标和用户。

Oct, 2020