易于决定、难于协定：减少显著性方法之间的分歧

Nov, 2022

易于决定、难于协定：减少显著性方法之间的分歧

Easy to Decide, Hard to Agree: Reducing Disagreements Between Saliency Methods

Josip Jukić, Martin Tutek, Jan Šnajder

TL;DR本研究探讨了神经 NLP 模型的黑匣子问题，发现排名相关性不适合于评估解释方法的一致性，提出了一个更加适合的选项 Pearson-r；通过研究 Easy-to-learn instances 的特点，我们发现增加信赖度可以提高解释方法之间的一致性。

Abstract

A popular approach to unveiling the black box of neural nlp models is to leverage saliency methods, which assign scalar importance scores to each input component. A common practice for evaluating whether an

neural nlp models saliency methods interpretability pearson-r regularization techniques

发现论文，激发创造

评估神经语言模型的显著性方法

本文通过对 NLP 模型的神经语言进行全面的定量评估，从两个方面评价了预测解释的质量：可信度和可信度。通过评估，我们发现，如何在给定相同模型和预测时，不同的显着性方法经常在解释上产生分歧。作者建议部署此类方法到神经语言模型的未来工作，应该在得出结果之前仔细验证其解释。

Apr, 2021

法庭秩序：易发生分歧的可解释人工智能方法

研究表明，基于排名相关性进行的注意力权重和特征添加解释方法之间的相关性分析，要么证明了基于注意力的解释作为显著性的忠实且合理的措施的作用，要么否定了这一点。但是，作者对 LIME，DeepLIFT 等多种解释技术的实验结果表明，并不存在一个能够弥合这些技术之间存在的明显分歧的排名相关度量方法。因此，作者建议从社区提出的严谨诊断方法入手，进行模型解释的改进。

May, 2021

显著图的合理性检查

本文对几种显著性方法进行实验和理论探索，提出用可行的方法来评估一种方法所能提供和不能提供的解释类型。实验证明，有些现有的显著性方法具有独立性，这些方法不受模型和数据生成过程的影响，因此，那些未通过所提出测试的方法，对于对数据或模型敏感的任务（如在数据中找到异常值，解释模型所学到的输入和输出之间的关系以及调试模型）是不适当的。与边缘检测类比，本文发现一些显著性方法无需训练数据或模型就能有效实现其功能。

Oct, 2018

通过众包评估自然语言处理中的显著性解释

通过众包方法，我们提出了一种新的基于人类的自然语言处理（NLP）显著性方法评估方法，对七种显著性方法在两个数据集上进行了实证评估，与现有的自动评估方法进行了对比，发现了 NLP 和计算机视觉（CV）领域在使用显著性方法时存在显著差异。

May, 2024

使用聚合输入显著性理解文本分类数据和模型

本研究采用聚合敏感度地图，结合聚类、最近邻搜索和可视化技术，力图从整体上理解模型行为，发现并解释模型的问题数据，从而为提高模型提供必要的第一步。

Nov, 2022

(不) 可靠的显著性方法

本文探讨了深度神经网络的显著性方法在解释模型预测时的可靠性问题，提出了保证输入不变性的要求，并举例说明了不满足此要求的方法可能导致错误归因。

Nov, 2017

定量评估显著性方法：实验研究

本文基于对解释人工智能（XAI）的准确定义和公正衡量标准缺失的讨论，提出了一种广泛的实验研究，重点关注解释方法的忠实度、本地化、假阳性、敏感度检查和稳定性。实验结果表明，在当前所有方法中，梯度加权类激活映射（Grad-CAM）和随机输入抽样解释（RISE）在大多数指标上表现良好。另外，本文还提出了一种筛选指标的方法，以诊断模型分类基础，并探讨了当前指标所忽略的测量因素。

Dec, 2020

神经网络特征评估中的不一致问题探究

近年来，神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而，理解这些黑盒模型的内部机制仍具挑战性，但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外，通过全面的模拟研究，我们展示了常见缩放和编码技术对解释质量的影响，评估它们在不同效应大小中的功效，并展示了基于排序的评估指标的不一致性的来源。

Apr, 2024

解释性人工智能在自然语言处理中的评估评价

本文在两种 NLP 任务和两种模型上，比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性，并发现注意力方法与其他特征归属方法的关联度较低，建议停止使用等级相关性作为注意力解释的评估指标。

May, 2022

显著性学习：教导模型关注重点

本论文旨在通过提供解释训练并确保模型的解释与真实解释的一致性，教会深度学习模型以恰当的原因做出正确的预测。实验结果表明，所提出的方法比传统训练模型更加可靠和有效。

Feb, 2019