无需真实标注：统一解释方法评估

Nov, 2019

无需真实标注：统一解释方法评估

Towards a Unified Evaluation of Explanation Methods without Ground Truth

Hao Zhang, Jiayi Chen, Haotian Xue, Quanshi Zhang

TL;DR本文提出了一组用于评估神经网络解释方法客观性的标准，设计了四个度量标准来评估解释结果（即没有真实解释数据情况下），并对九种基准解释方法进行了广泛应用，从而提供了解释方法的新见解。

Abstract

This paper proposes a set of criteria to evaluate the objectiveness of explanation methods of neural networks, which is crucial for the development of →

explainable ai neural networks objectiveness evaluation criteria interpretation methods

发现论文，激发创造

基于人工标注的文本分类解释方法评估

本文探讨了一些适用于 CNN 文本分类的模型无关和模型特定解释方法，并进行了三次人类评估来揭示这些方法揭示模型行为、证明模型预测和帮助人类调查不确定预测的不同效果。结果表明，这些方法具有不同的性质，并且可以为每个目的提供帮助。

Aug, 2019

可解释机器学习中无基础真实性解释的评估

本文系统地定义了评估 interpretable machine learning 方法的问题，并全面回顾了现有工作。作者提出了三个方面的解释（即泛化性、准确性和说服性），并分别回顾了不同任务下的代表性方法，设计了一个统一的评估框架，用于实践中的不同场景。

Jul, 2019

解释方法质量评估标准的元调查

通过文献调研和元分析，我们建议采用适当的信任作为衡量主观评价标准结果的标准，并提出了一个解释质量方面的模型，其中类似定义的标准被分组，并与三个识别出的质量方面相关联：模型、解释和用户。最后我们提出了一个包含四个常用标准（群）的模型，涵盖了解释质量的所有方面：性能、适当的信任、解释满意度和忠实度。该模型可以作为比较评估的图表，以创建更具可推广性的解释质量研究。

Mar, 2022

解释的普适性

本文提出了一种新的可解释性方法评估方法，从可泛化性的角度出发，使用自编码器学习生成解释的分布，并观察其可学性和学习分布特征的合理性；同时进行了 LIME 可解释性方法的直观演示，以及对多个流行可解释性方法的数量评估，并发现使用 SmoothGrad 来平滑解释可以显著增强解释的泛化性。

Feb, 2023

走向可解释人工智能方法基准测试

本文以科学哲学理论作为分析视角，研究解释性方法在神经网络性能评估中的应用，并发现解释性方法的实用性依赖于人类领域知识和理解推理能力。本研究得出结论，基准测试解释性方法是迈向可信人工智能和机器学习的中心任务。

Aug, 2022

GraphFramEx：面向图神经网络可解释性方法的系统评估

本文提出了第一个系统性的图神经网络的可解释性评估框架，比较了该领域中最具代表性的技术，涉及节点分类任务和欺诈检测应用案例。

Jun, 2022

用于评估 XAI 方法的数据代表真实解释

本文介绍了使用规范方程代表解释的方法，以解决可解释的人工智能和可解释的机器学习方法面临的挑战，并提出使用合成数据来评估模型准确性的方法。

Nov, 2020

图像解释的分类评估指标：构建可靠的可解释性人工智能评估

计算机视觉模型的决策过程（尤其是深度神经网络）的不透明性意味着这些决策无法被人类理解。因此，在过去几年中，已经提出了许多提供人理解解释的方法。本文针对图像分类开发了新的评估指标，并对常见的显著性方法在 ImageNet 上进行了基准测试。此外，还提出了一种基于心理测评概念的可靠性评估方案。

Jun, 2024

可解释性方法评估的实验研究

本文比较了 14 个不同的评估指标在 9 种最先进的 XAI 方法和 3 种用作参考的虚拟方法（如随机显著性图）上的应用结果，结果表明其中一些指标会产生高度相关的结果，还展示了基准超参数变化对评估指标值的显著影响，最后使用虚拟方法评估指标的可靠性及其排名方面的限制。

May, 2023

关于视觉解释的定量评估的一致性

研究神经网络的预测可视化解释，并评价这些解释的好坏。其中，绝大多数评价方法使用 ImageNet-1k 和人工检测评估结果，结果表明评价方法之间缺乏一致性。同时，解释的稀疏性对评价方法的表现具有显著影响。

Feb, 2023