基于显著性的 XAI 方法众包评估

KDDJun, 2021

Crowdsourcing Evaluation of Saliency-based XAI Methods

Xiaotian Lu, Arseny Tolmachev, Tatsuya Yamamoto, Koh Takeuchi, Seiji Okajima...

TL;DR提出了一种使用众包的人类评估方法来比较各种基于显著性的特征归因方法作为解释性 AI 方法（XAI）的有效性，并发现结果与自动化评估方法不同。

Abstract

Understanding the reasons behind the predictions made by deep neural networks is critical for gaining human trust in many important applications, which is reflected in the increasing demand for explainability in ai

deep neural networks explainability in ai saliency-based feature attribution human-based evaluation scheme crowdsourcing

发现论文，激发创造

基于显著性的可解释性方法评估

本文结合三个人体实验研究基于显著性的可解释性方法对于卷积神经网络的解释效果，并评估其可行性。

Jun, 2021

通过众包评估自然语言处理中的显著性解释

通过众包方法，我们提出了一种新的基于人类的自然语言处理（NLP）显著性方法评估方法，对七种显著性方法在两个数据集上进行了实证评估，与现有的自动评估方法进行了对比，发现了 NLP 和计算机视觉（CV）领域在使用显著性方法时存在显著差异。

May, 2024

定量评估显著性方法：实验研究

本文基于对解释人工智能（XAI）的准确定义和公正衡量标准缺失的讨论，提出了一种广泛的实验研究，重点关注解释方法的忠实度、本地化、假阳性、敏感度检查和稳定性。实验结果表明，在当前所有方法中，梯度加权类激活映射（Grad-CAM）和随机输入抽样解释（RISE）在大多数指标上表现良好。另外，本文还提出了一种筛选指标的方法，以诊断模型分类基础，并探讨了当前指标所忽略的测量因素。

Dec, 2020

可解释性方法评估的实验研究

本文比较了 14 个不同的评估指标在 9 种最先进的 XAI 方法和 3 种用作参考的虚拟方法（如随机显著性图）上的应用结果，结果表明其中一些指标会产生高度相关的结果，还展示了基准超参数变化对评估指标值的显著影响，最后使用虚拟方法评估指标的可靠性及其排名方面的限制。

May, 2023

图像解释的分类评估指标：构建可靠的可解释性人工智能评估

计算机视觉模型的决策过程（尤其是深度神经网络）的不透明性意味着这些决策无法被人类理解。因此，在过去几年中，已经提出了许多提供人理解解释的方法。本文针对图像分类开发了新的评估指标，并对常见的显著性方法在 ImageNet 上进行了基准测试。此外，还提出了一种基于心理测评概念的可靠性评估方案。

Jun, 2024

基于人类注意力引导的可解释人工智能计算机视觉模型

研究将人的注意力知识融入到基于显著性的 XAI（可解释人工智能）方法中，以增强计算机视觉模型的合理性和可靠性，并开发了新的基于梯度的 XAI 方法来生成物体特定的解释，并使用可训练的激活函数和平滑核来最大化 XAI 显著图与人类注意图的相似性，从而在物体检测模型中同时提高了可靠性和合理性。

May, 2023

解析 AI 归因方法的精确基准测试

我们提出了一种新的评估方法，用于基准测试最先进的可解释 AI 归因方法，该方法由合成的分类模型及其衍生的地面实况解释组成，该方法提供了关于 XAI 方法输出的更深入的洞察。

Aug, 2023

计算机视觉中基于归因的可解释 AI 方法综述

本文对计算机视觉中基于归因的 Explainable AI (XAI) 方法进行了全面概述，并回顾了梯度、扰动和对比方法，提供了开发和评估强健 XAI 方法的关键挑战的见解。

Nov, 2022

解释性的心理学理论

研究人员提出了一种心理学理论，解释了人们如何从显著性图中得出结论，为 XAI 中的精确预测和验证提供了理论依据，并进行了一项用户研究以验证该理论。

May, 2022

可解释人工智能对人类表现的影响：对显著性图行为后果的系统综述

68 个用户研究的系统综述发现，显著性图可以增强人类表现，但也常见到零效应甚至负效应。这些效应受多个因素的调节，包括人类任务、AI 性能、XAI 方法、待分类的图像、人类参与者和比较条件等。图像任务中的效益不如 AI 任务中常见，但效果取决于具体的认知需求。此外，效益通常局限于 AI 任务中的错误预测，而在图像任务中局限于正确预测。与 XAI 相关的因素影响较小。对于图像和人类相关的因素，证据有限且效应高度依赖于比较条件。这些发现可能有助于未来用户研究的设计。

Apr, 2024