您能相信您的解释吗？特征归因方法的健壮性测试

Jun, 2024

您能相信您的解释吗？特征归因方法的健壮性测试

Can you trust your explanations? A robustness test for feature attribution methods

Ilaria Vascotto, Alex Rodriguez, Alessandro Bonaita, Luca Bortolussi

TL;DR评估对非敌对扰动的稳健性并分析神经网络和表格数据集上应用的可解释 AI 方法的稳健性，展示如何利用流形假设和集成方法对稳健性进行深入分析。

Abstract

The increase of legislative concerns towards the usage of Artificial Intelligence (AI) has recently led to a series of regulations striving for a more transparent, trustworthy and accountable AI. Along with these proposals, the field of →

legislative concerns artificial intelligence explainable ai robustness evaluation ensemble approach

发现论文，激发创造

从鲁棒性到可解释性，再回到鲁棒性

这篇论文提出了一种新的算法，通过回答一些鲁棒性问题来计算正式解释，从而消除了正式解释的可扩展性限制，并通过推理某些目标鲁棒度的术语来推广正式解释的定义。

Jun, 2023

可解释人工智能中的对抗攻击和防御：一项调查

该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述，并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI（可解释人工智能）不安全因素的列表，并概述了 Adversarial XAI（AdvXAI）的新兴研究方向。

Jun, 2023

机器学习模型中的统一解释：一种扰动方法

面向可解释人工智能（XAI）的高速范式转变已在近年来出现。高度复杂的机器学习（ML）模型在许多智能任务中蓬勃发展，而问题开始从传统的有效性度量转向更深层次的问题：该模型告诉我关于我的数据什么，它是如何得出这些结论的？XAI 和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题，我们提出了一种针对流行的 XAI 的模型不可知方法 SHapley Additive exPlanations（Shap）进行系统的扰动分析。我们设计了一些算法，在动态推理的设置下生成相对特征重要性，这些设置针对一套流行的机器学习和深度学习方法，以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系，度量了一致性，并观察了几个数据集中解释模型之间的可量化相似性。

May, 2024

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的 AI 研究中人类评价的重要性下应该得到重视。

Dec, 2020

我们需要另一种可解释的 AI 方法吗？将事后可解释性评估方法统一为一种交互式和多维基准

提出了一种名为 Compare-xAI 的基准测试框架，该框架统一了 xAI 算法的所有排他性功能测试方法，帮助研究人员、从业人员和普通人解释模型结果，同时提供了可互动的用户界面。

Jun, 2022

分析开放存储库中 AI 视觉模型在对抗攻击下的质量属性

我们提出了一个集成的过程，用于验证 AI 模型的准确性、评估其鲁棒性以及比较解释效用，并展示了六种计算机视觉模型在不同扰动和 XAI 方法下的评估结果。

Jan, 2024

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

XAI-TRIS: 量化机器学习解释能力的非线性基准测试

本文探讨不同非线性分类场景下，解释性人工智能模型的表现，并通过一系列实验测试发现，当前流行的 XAI 方法往往无法显著提高准确性基线和边缘检测方法，甚至在不同模型结构下产生非常不同的解释，存在误解的风险。

Jun, 2023

度量效用、赢得信任：XAI 研究员的实用建议

机器学习模型解释学（即可解释性 AI）的研究与深度人工神经网络同步呈指数增长，但传统的信任和解释却太狭隘，导致研究社区被误导。该研究提出了一种实用的解决方案，建议研究人员关注机器学习解释的实用性而非信任，提出五种广泛的用例，并为每种情况描述可依靠客观经验测量和可证伪假设的伪实验。该实验严谨的处理方法将对 XAI 领域的科学知识的进一步贡献是必要的。

Sep, 2020

稳健性分析解释的评估和方法

本文提出一种基于鲁棒性分析的特征解释新的评估标准，通过针对我们提出的评估标准进行优化，获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。

May, 2020