您能相信您的解释吗?特征归因方法的健壮性测试
这篇论文提出了一种新的算法,通过回答一些鲁棒性问题来计算正式解释,从而消除了正式解释的可扩展性限制,并通过推理某些目标鲁棒度的术语来推广正式解释的定义。
Jun, 2023
该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述,并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI(可解释人工智能)不安全因素的列表,并概述了 Adversarial XAI(AdvXAI)的新兴研究方向。
Jun, 2023
面向可解释人工智能(XAI)的高速范式转变已在近年来出现。高度复杂的机器学习(ML)模型在许多智能任务中蓬勃发展,而问题开始从传统的有效性度量转向更深层次的问题:该模型告诉我关于我的数据什么,它是如何得出这些结论的?XAI 和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题,我们提出了一种针对流行的 XAI 的模型不可知方法 SHapley Additive exPlanations(Shap)进行系统的扰动分析。我们设计了一些算法,在动态推理的设置下生成相对特征重要性,这些设置针对一套流行的机器学习和深度学习方法,以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系,度量了一致性,并观察了几个数据集中解释模型之间的可量化相似性。
May, 2024
通过人类实验,我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策,这一结果挑战了应用这些方法的普遍好处的假定,在可解释的 AI 研究中人类评价的重要性下应该得到重视。
Dec, 2020
提出了一种名为 Compare-xAI 的基准测试框架,该框架统一了 xAI 算法的所有排他性功能测试方法,帮助研究人员、从业人员和普通人解释模型结果,同时提供了可互动的用户界面。
Jun, 2022
我们提出了一个集成的过程,用于验证 AI 模型的准确性、评估其鲁棒性以及比较解释效用,并展示了六种计算机视觉模型在不同扰动和 XAI 方法下的评估结果。
Jan, 2024
本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击,结果表明,输入语句及其语义的微小改变可以在很大程度上扰乱解释方法,达到 86% 的成功率。
Jun, 2022
本文探讨不同非线性分类场景下,解释性人工智能模型的表现,并通过一系列实验测试发现,当前流行的 XAI 方法往往无法显著提高准确性基线和边缘检测方法,甚至在不同模型结构下产生非常不同的解释,存在误解的风险。
Jun, 2023
机器学习模型解释学(即可解释性 AI)的研究与深度人工神经网络同步呈指数增长,但传统的信任和解释却太狭隘,导致研究社区被误导。该研究提出了一种实用的解决方案,建议研究人员关注机器学习解释的实用性而非信任,提出五种广泛的用例,并为每种情况描述可依靠客观经验测量和可证伪假设的伪实验。该实验严谨的处理方法将对 XAI 领域的科学知识的进一步贡献是必要的。
Sep, 2020
本文提出一种基于鲁棒性分析的特征解释新的评估标准,通过针对我们提出的评估标准进行优化,获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。
May, 2020