解析 AI 归因方法的精确基准测试
本文比较了 14 个不同的评估指标在 9 种最先进的 XAI 方法和 3 种用作参考的虚拟方法(如随机显著性图)上的应用结果,结果表明其中一些指标会产生高度相关的结果,还展示了基准超参数变化对评估指标值的显著影响,最后使用虚拟方法评估指标的可靠性及其排名方面的限制。
May, 2023
深度学习算法的崛起在计算机视觉任务中取得了重大进展,但它们的 “黑匣子” 性质引发了对可解释性的关注。可解释人工智能(XAI)作为一个重要的研究领域出现,旨在打开这个 “黑匣子”,并揭示人工智能模型的决策过程。视觉解释作为可解释人工智能的一个子集,通过突出显示输入图像中的重要区域,为处理视觉数据的人工智能模型的决策过程提供直观的见解。我们提出了一个 XAI 基准,其中包括来自不同主题的数据集集合,为图像提供了类别标签和相应的解释注释。我们引入了一个全面的视觉解释流程,在这个流程中整合了数据加载、预处理、实验设置和模型评估过程。此结构使研究人员能够公平比较各种视觉解释技术。此外,我们对视觉解释的超过 10 种评估方法进行综合评述,以帮助研究人员有效利用我们的数据集合。为了进一步评估现有的视觉解释方法的性能,我们使用各种以模型为中心和以真实标注为中心的评估指标在选定的数据集上进行实验。我们希望这个基准可以推动视觉解释模型的进步。这个 XAI 数据集合和用于评估的易于使用的代码公开可访问。
Oct, 2023
本文对计算机视觉中基于归因的 Explainable AI (XAI) 方法进行了全面概述,并回顾了梯度、扰动和对比方法,提供了开发和评估强健 XAI 方法的关键挑战的见解。
Nov, 2022
本文基于对解释人工智能(XAI)的准确定义和公正衡量标准缺失的讨论,提出了一种广泛的实验研究,重点关注解释方法的忠实度、本地化、假阳性、敏感度检查和稳定性。实验结果表明,在当前所有方法中,梯度加权类激活映射(Grad-CAM)和随机输入抽样解释(RISE)在大多数指标上表现良好。另外,本文还提出了一种筛选指标的方法,以诊断模型分类基础,并探讨了当前指标所忽略的测量因素。
Dec, 2020
本文探讨不同非线性分类场景下,解释性人工智能模型的表现,并通过一系列实验测试发现,当前流行的 XAI 方法往往无法显著提高准确性基线和边缘检测方法,甚至在不同模型结构下产生非常不同的解释,存在误解的风险。
Jun, 2023
提出了一种名为 Compare-xAI 的基准测试框架,该框架统一了 xAI 算法的所有排他性功能测试方法,帮助研究人员、从业人员和普通人解释模型结果,同时提供了可互动的用户界面。
Jun, 2022
使用透明模型决策树作为基准,研究提出了一种新的测度指标验证 XAI 方法的准确性,结果显示了现有的测度指标在真实场景中不可靠,并建议开发新的指标以解决这些问题。
Jan, 2024
本研究介绍了 XAI 在气候研究中的应用,并评估了不同的解释属性,建立在先前的工作和训练多层感知器 MLP 和卷积神经网络 CNN 进行预测,我们发现 Integrated Gradients,Layer-wise relevance propagation 和 InputGradients 表现得很好。
Mar, 2023