神经网络敏感性分析的度量工具
本文基于对解释人工智能(XAI)的准确定义和公正衡量标准缺失的讨论,提出了一种广泛的实验研究,重点关注解释方法的忠实度、本地化、假阳性、敏感度检查和稳定性。实验结果表明,在当前所有方法中,梯度加权类激活映射(Grad-CAM)和随机输入抽样解释(RISE)在大多数指标上表现良好。另外,本文还提出了一种筛选指标的方法,以诊断模型分类基础,并探讨了当前指标所忽略的测量因素。
Dec, 2020
本文比较了 14 个不同的评估指标在 9 种最先进的 XAI 方法和 3 种用作参考的虚拟方法(如随机显著性图)上的应用结果,结果表明其中一些指标会产生高度相关的结果,还展示了基准超参数变化对评估指标值的显著影响,最后使用虚拟方法评估指标的可靠性及其排名方面的限制。
May, 2023
我们提出了一种新的评估方法,用于基准测试最先进的可解释 AI 归因方法,该方法由合成的分类模型及其衍生的地面实况解释组成,该方法提供了关于 XAI 方法输出的更深入的洞察。
Aug, 2023
本文提供了一种新颖的量化指标框架,用于解释分类器和回归模型的预测结果,旨在提高人工智能系统的透明度和可信度。应用公开数据集,展示了这些指标如何更全面地理解模型预测,并在决策者和利益相关者之间促进更好的沟通,从而增加人工智能系统的整体透明度和问责度。
Feb, 2023
针对可解释人工智能 (XAI) 方法缺乏基础事实的问题,研究人员提出了基于公理的方法,通过削弱输入属性的重要性来评估模型性能是否符合期望;本文则使用五个数据集,三种 XAI 方法,四个基线和三个扰动方案,展示了不同的扰动策略在验证过程中的作用,以及在后跑解释和去除研究中一个新的分类变量处理技术,并识别 XAI 方法和可行的脱敏方案的实用基线。
Jul, 2022
本文探讨不同非线性分类场景下,解释性人工智能模型的表现,并通过一系列实验测试发现,当前流行的 XAI 方法往往无法显著提高准确性基线和边缘检测方法,甚至在不同模型结构下产生非常不同的解释,存在误解的风险。
Jun, 2023
本次研究使用决策影响分析的方法,提出了两个指标来量化深度神经网络的可解释性方法的性能,并对几种最先进的解释性方法(LIME,SHAP,Expected Gradients,GSInquire)在 ResNet-50 深度卷积神经网络上进行了全面分析。实验结果表明,受测试图像中由 LIME 确定的关键区域对网络的决策过程的影响最小,SHAP,Expected Gradients 和 GSInquire 的影响逐渐增加,提出的机器 - 中心策略有助于推进评估可解释性方法的更好度量和提高深度神经网络的信任度。
Oct, 2019
面向可解释人工智能(XAI)的高速范式转变已在近年来出现。高度复杂的机器学习(ML)模型在许多智能任务中蓬勃发展,而问题开始从传统的有效性度量转向更深层次的问题:该模型告诉我关于我的数据什么,它是如何得出这些结论的?XAI 和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题,我们提出了一种针对流行的 XAI 的模型不可知方法 SHapley Additive exPlanations(Shap)进行系统的扰动分析。我们设计了一些算法,在动态推理的设置下生成相对特征重要性,这些设置针对一套流行的机器学习和深度学习方法,以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系,度量了一致性,并观察了几个数据集中解释模型之间的可量化相似性。
May, 2024
本研究介绍了 XAI 在气候研究中的应用,并评估了不同的解释属性,建立在先前的工作和训练多层感知器 MLP 和卷积神经网络 CNN 进行预测,我们发现 Integrated Gradients,Layer-wise relevance propagation 和 InputGradients 表现得很好。
Mar, 2023
研究表明,大型机器学习模型体系结构的普及会导致物理上不可行的模型策略,因此,我们建议更多地运用可解释人工智能(XAI)方法来选择模型,并提出了一种实用的方法来利用解释来进行风力涡轮性能监测的根本原因分析,以帮助减少停机时间,增加场地涡轮的利用率。
Oct, 2022