通过多个 NLP 任务的广泛实验,发现学习的注意力权重往往与基于梯度的特征重要性测量之间存在不相关性,表明标准的注意力模块并不能提供有意义的解释并且不应该被视为能够提供这种解释。
Feb, 2019
Attention mechanisms 在 NLP 系统中扮演着重要角色,在重熙神经网络 (RNN) 模型中特别如此。本研究挑战了最近一篇质疑 “Attention 不是 Explanation” 的论文,并提出了四项替代性测试,以确定 Attention 是否可以用作 Explanation,并为每个测试提供有意义的 Attention 机制解释。最终的解释是此前的研究不能否定 Attention 机制的可解释性。
Aug, 2019
本研究提出一种简单方法,通过训练模型生成欺骗性的注意力掩码,从而质疑注意机制的可靠性,因为通过操纵注意权重,即使我们可以证明模型仍然依赖这些特征来驱动预测,我们的方法会减少指定的不允许的标记被分配的总权重。通过人类研究,我们展示了我们操作注意力的解释会欺骗人们认为偏见的模型的预测不依赖性别,从而对注意力在公平性和问责制的算法审计工具上的可靠性产生怀疑。
Sep, 2019
测试加权输入组件的注意机制对于模型预测的影响,发现虽然注意机制可以预测输入组件的相对重要性,但并非绝对准确的指标。
Jun, 2019
本文在两种 NLP 任务和两种模型上,比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性,并发现注意力方法与其他特征归属方法的关联度较低,建议停止使用等级相关性作为注意力解释的评估指标。
May, 2022
本文旨在通过一系列的 NLP 任务,人工评估实验等方式,全面解释神经网络模型中的注意力机制的可解释性,并证明了注意力的可解释性验证了两种观点。
本论文论述了在模型解释方面,关注度是否能够用作模型预测的解释存在争议,因为关注度虽然能够在每个输入令牌上提供一个权重,但往往不清楚它用作解释的目标是什么。作者认为,对于寻找与预测结果最相关的输入令牌并且解释的用户是模型开发人员的目标和用户,输入显著性方法更为合适,没有强有力的理由使用关注度。所以,本文提出应将注意力从关注度转向输入显著性方法,并要求作者明确解释的目标和用户。
Oct, 2020
本文通过引入反事实的注意力模型,评估了注意力模型在神经机器翻译中的解释能力,结果表明注意力模型无法可靠地解释 NMT 模型的决策。
在信息理论的角度下,论文研究了不同类型的注意力机制在保留信息和解释模型输入方面的表现,并得出了一些结论。
Oct, 2022
本文提出了一个新的深度学习框架,利用两级注意力体系结构来解决模型可解释性的问题,并在新闻文章分类任务中进行了实验,结果显示该模型在可解释性能力方面具有适当性并且与许多现有模型相比性能有竞争力。
Mar, 2022