MASALA：基于局部适应的模型无关替代理解

Aug, 2024

MASALA：基于局部适应的模型无关替代理解

MASALA: Model-Agnostic Surrogate Explanations by Locality Adaptation

Saif Anwar, Nathan Griffiths, Abhir Bhalerao, Thomas Popham

TL;DR本研究针对现有局部可解释人工智能方法在选择适当局部区域时面临的困难问题，提出了新的方法MASALA，该方法能够自动确定每个实例的影响模型行为的局部区域。实验表明，MASALA生成的解释在准确性和一致性上优于现有方法，不再需要用户定义敏感的局部超参数。

Abstract

Existing local Explainable AI (XAI) methods, such as LIME, select a region of the input space in the vicinity of a given input instance, for which they approximate the behaviour of a model using a simpler and more interpretable surrogate model. The size of this region is often controll

发现论文，激发创造

后解释性中代理器的可识别性定义

本研究针对黑盒分类器的应用，提出了一种基于本地替代模型的解释生成方法，强调了定义正确的邻域对于准确逼近本地黑盒决策边界的重要性。该方法通过在决策边界上的特定区域进行采样，生成了一个新型的替换方法，并在四个UCI数据集上进行了评估，证实了其有效性。

Jun, 2018

超越LIME的替代预测解释

本文提出一种算法框架bLIMEy，用于构建定制的本地替代解释器，其中包括LIME，该框架独立且可互操作，并讨论了组件选择对结果解释器功能能力的影响。

Oct, 2019

GLocalX -- 从本地到全局的黑匣子AI模型解释

GLocalX 是一种基于本地解释的模型无关的解释方法，通过汇总本地解释解释部分理解黑匣子模型，从而学习精确而简单的可解释模型，以替代黑匣子模型。实验证明，GLocalX 能够准确地模拟几种模型，其性能达到本机全局解决方案的最新水平，这为在带有高维数据的复杂领域中实现高准确性和可理解性的分类模型奠定了基础。

Jan, 2021

基于局部不变学习的本地不变解释：实现稳定单向解释

提出了一种基于不变风险最小化 (IRM) 原则的模型无关局部解释方法，该方法能够稳定、直观地生成高保真度解释，该方法通过消除黑盒函数梯度在附近范围内突然变化的特征，实现了与实际邻居方法相当甚至更好的解释质量，同时没有必要花费过多时间来学习邻居结构。

Jan, 2022

使用动态线性投影探索非线性模型的局部解释

本文介绍了交互式线性插值方法及其在分类（企鹅物种，巧克力类型）和数量（足球薪资，房价）输出方面的应用，并试图通过提供局部解释来解释非线性模型的预测性能和线性特征的重要性。

May, 2022

从“在哪里”到“是什么”: 通过概念关联传播实现人类可理解的解释

该论文介绍了概念相关传播 (CRP) 方法，该方法结合了本地和全局 XAI 的观点，从而允许回答单个预测的“何时”和“何物”的问题，而无需施加其他限制。作者进一步介绍了相关性最大化的原则，以找到编码概念的有用代表性示例。作者演示了该方法在各种不同的设置中的能力，展示了概念相关传播和相关性最大化如何通过概念地图、概念组合分析和概念子空间的量化调查及其在细粒度决策中的作用，提供更人性化的解释和深入的模型表示和推理见解。

Jun, 2022

CLIMAX：分类器基于对比解释的探索

本文提出了一种名为CLIMAX的后操作模型无关XAI技术，它提供了对黑盒分类器分类的对比解释以及为什么其他类别未被预测的理由。

Jul, 2023

通过能量限制的符合性反事实来解释忠实模型

提出了一种新的算法框架，通过整合基于能量的建模和符合预测的最新进展，生成仅符合模型要求的以可信度分析为目标的柔性反事实解释。

Dec, 2023

机器学习模型中的统一解释：一种扰动方法

面向可解释人工智能（XAI）的高速范式转变已在近年来出现。高度复杂的机器学习（ML）模型在许多智能任务中蓬勃发展，而问题开始从传统的有效性度量转向更深层次的问题：该模型告诉我关于我的数据什么，它是如何得出这些结论的？XAI和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题，我们提出了一种针对流行的XAI的模型不可知方法SHapley Additive exPlanations（Shap）进行系统的扰动分析。我们设计了一些算法，在动态推理的设置下生成相对特征重要性，这些设置针对一套流行的机器学习和深度学习方法，以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系，度量了一致性，并观察了几个数据集中解释模型之间的可量化相似性。

May, 2024

利用替代模型方法进行XAI的黑客攻击

最近几年，高度复杂人工智能系统的新应用数量大幅增长。算法决策系统 (ADMs) 是其中之一，其通过人工智能系统代替人类专家的决策过程。为确保此类系统的公平性和透明性，可解释人工智能 (XAI) 越来越重要。一种实现可解释性的变体是 surrogate 模型，即基于黑盒模型的输入-输出关系训练新的简化的机器学习模型的思想。简化的机器学习模型可以是决策树，被认为对人类直观可理解。然而，关于 surrogate 模型多好地逼近黑盒模型，我们知之甚少。本文的主要假设是一个良好的 surrogate 模型方法应能引起人类的注意力，先前我们假定一个 surrogate 决策树在其前几层将识别出这种歧视模式。然而，在本文中我们展示，即使被歧视的子群体在所有类别上与其他相同，也不会从黑盒 ADM 系统获得任何正面决策，相应的群体成员问题可以由系统操作者推迟到任意低的层级。我们进一步将此发现推广到准确定位歧视问题被问及的决策树层级，并展示在更现实的场景中，即只有某一部分处于劣势的群体才发生歧视，隐藏这种歧视行为更加可行。我们的方法可以轻易应用于其他 surrogate 模型。

Jun, 2024