基于显著性的 XAI 方法众包评估
通过众包方法,我们提出了一种新的基于人类的自然语言处理(NLP)显著性方法评估方法,对七种显著性方法在两个数据集上进行了实证评估,与现有的自动评估方法进行了对比,发现了 NLP 和计算机视觉(CV)领域在使用显著性方法时存在显著差异。
May, 2024
本文基于对解释人工智能(XAI)的准确定义和公正衡量标准缺失的讨论,提出了一种广泛的实验研究,重点关注解释方法的忠实度、本地化、假阳性、敏感度检查和稳定性。实验结果表明,在当前所有方法中,梯度加权类激活映射(Grad-CAM)和随机输入抽样解释(RISE)在大多数指标上表现良好。另外,本文还提出了一种筛选指标的方法,以诊断模型分类基础,并探讨了当前指标所忽略的测量因素。
Dec, 2020
本文比较了 14 个不同的评估指标在 9 种最先进的 XAI 方法和 3 种用作参考的虚拟方法(如随机显著性图)上的应用结果,结果表明其中一些指标会产生高度相关的结果,还展示了基准超参数变化对评估指标值的显著影响,最后使用虚拟方法评估指标的可靠性及其排名方面的限制。
May, 2023
计算机视觉模型的决策过程(尤其是深度神经网络)的不透明性意味着这些决策无法被人类理解。因此,在过去几年中,已经提出了许多提供人理解解释的方法。本文针对图像分类开发了新的评估指标,并对常见的显著性方法在 ImageNet 上进行了基准测试。此外,还提出了一种基于心理测评概念的可靠性评估方案。
Jun, 2024
研究将人的注意力知识融入到基于显著性的 XAI(可解释人工智能)方法中,以增强计算机视觉模型的合理性和可靠性,并开发了新的基于梯度的 XAI 方法来生成物体特定的解释,并使用可训练的激活函数和平滑核来最大化 XAI 显著图与人类注意图的相似性,从而在物体检测模型中同时提高了可靠性和合理性。
May, 2023
我们提出了一种新的评估方法,用于基准测试最先进的可解释 AI 归因方法,该方法由合成的分类模型及其衍生的地面实况解释组成,该方法提供了关于 XAI 方法输出的更深入的洞察。
Aug, 2023
本文对计算机视觉中基于归因的 Explainable AI (XAI) 方法进行了全面概述,并回顾了梯度、扰动和对比方法,提供了开发和评估强健 XAI 方法的关键挑战的见解。
Nov, 2022
68 个用户研究的系统综述发现,显著性图可以增强人类表现,但也常见到零效应甚至负效应。这些效应受多个因素的调节,包括人类任务、AI 性能、XAI 方法、待分类的图像、人类参与者和比较条件等。图像任务中的效益不如 AI 任务中常见,但效果取决于具体的认知需求。此外,效益通常局限于 AI 任务中的错误预测,而在图像任务中局限于正确预测。与 XAI 相关的因素影响较小。对于图像和人类相关的因素,证据有限且效应高度依赖于比较条件。这些发现可能有助于未来用户研究的设计。
Apr, 2024