通过忠实度违规测试重新思考注意力模型可解释性

ICMLJan, 2022

通过忠实度违规测试重新思考注意力模型可解释性

Rethinking Attention-Model Explainability through Faithfulness Violation Test

Yibing Liu, Haoliang Li, Yangyang Guo, Chenqi Kong, Jing Li...

TL;DR本文发现注意力解释的一个关键限制：弱点在于识别特征影响的极性。为此，作者提出了一个行动诊断方法来量化解释权重与影响极性之间的一致性，并通过大量实验表明，大多数测试的解释方法都意外受到忠诚度违反问题的阻碍，特别是原始的关注力。

Abstract

attention mechanisms are dominating the explainability of deep models. They produce probability distributions over the input, which are widely deemed as →

attention mechanisms deep models feature-importance indicators faithfulness violation test explanation methods

发现论文，激发创造

好看但缺乏忠诚：通过趋势测试理解局部解释方法

通过对传统的可解释性测试进行评估，发现在复杂数据方面存在随机优势问题。为了解决这个问题，我们提出了三种基于趋势的可信度测试，并通过实证研究证明新的趋势测试可以更好地评估图像、自然语言和安全任务的可信度。我们实施了评估系统并评估了十种常用的解释方法，从中获得了前所未有的发现，启发了未来的研究。同时，可信度测试也极大地提高了下游任务的效果。例如，配备可靠的解释方法的模型调试在检测和修正准确性和安全性问题方面表现出更好的性能。

Sep, 2023

透明可解释的注意力模型

本文研究基于 LSTM 的编码器的注意力机制的可解释性问题，发现现有的注意力机制不能提供清晰的解释，因为同步隐藏状态之间的高相关性使得注意权重缺乏了传达重要信息的能力。为了使注意力机制更为可信和可解释，作者提出一种基于多样性驱动的训练目标修改 LSTM 结构，实现不同时步的隐藏状态的多样化，以提高注意力分布的质量和可解释性。

Apr, 2020

解释性人工智能在自然语言处理中的评估评价

本文在两种 NLP 任务和两种模型上，比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性，并发现注意力方法与其他特征归属方法的关联度较低，建议停止使用等级相关性作为注意力解释的评估指标。

May, 2022

传统机器学习模型解释方法比较 Part 2：量化模型解释可信度及通过降维改善

本研究评估了多种特征排序方法的忠实度，并量化了限制相关特征对解释能力提高的影响，发现促进特征解释的方法在特征相关性降低后最具忠实度。

Nov, 2022

忠实关注解释器：基于辨别特征的决策语言化

我们提出了 Faithful Attention Explainer（FAE）的框架，用于生成关于关注特征的忠实文本解释，并展示了该模型在生成图像描述和解译人类注意力方面的良好性能。

May, 2024

评估特征归因方法的双重视角方法

特征归因方法通过识别相关特征来解释神经网络的预测结果，本研究在 “忠实度” 范式内提出了两个新视角：可靠性和完备性，分别评估特征是否真正预测，以及归因结果是否完整，并基于数学基础提供可计算的定量度量，将这些指标应用于主流归因方法，为分析和比较特征归因方法提供了新视角。

Aug, 2023

通过递归屏蔽所谓重要的令牌并重新训练来评估 NLP 中重要性度量的忠实度

本文提出了一种新的忠实度度量标准，即递归 ROAR，并对四种不同的重要性评估方法在八个数据集上进行了评估，发现其忠实度既与模型相关，也与任务相关。

Oct, 2021

利用任务特定信息提高基于注意力解释的文本分类中的忠诚度

本文提出了一种新型的 TaSc 机制，学习任务特定的非上下文信息以扩展原始的 Attention 权重，通过评估测试，证明 TaSc 可以提高 Attention 解释在两种注意机制，五个编码器和五个文本分类数据集上的解释品质而不牺牲预测性能，并且相对于三种广泛使用的可解释性技术，TaSc 一致提供更加忠实的 Attention 解释。

May, 2021

忠诚与可信性是否相冲突？在自然语言处理任务中的可解释人工智能的经验研究

通过对情感分析、意图检测和主题标记等三个自然语言处理任务中选定的易解释算法与专家解释方法的综合定量比较，我们的研究表明，传统的基于扰动的方法 Shapley value 和 LIME 可以同时实现更高的准确度和用户可访问性，与模型的推理过程、领域专家一致的解释方式。这一发现提示我们在优化解释算法时应当以双重目标为导向，以实现准确度和用户可理解性的双重提高。

Mar, 2024

忠诚度度量中的不一致问题

解释性人工智能（XAI）领域旨在解释黑盒机器学习模型的工作方式，而选择合适的方法以及衡量本地解释的忠实度的当前指标缺乏一致性，使得使用者在选择最忠实的解释时感到困惑。

Nov, 2023