尊重模型：精细和稳健的解释与共享比率分解

ICLRJan, 2024

尊重模型：精细和稳健的解释与共享比率分解

Respect the model: Fine-grained and Robust Explanation with Sharing Ratio Decomposition

Sangyu Han, Yearim Kim, Nojun Kwak

TL;DR我们提出了一种名为 SRD（共享比例分解）的新颖可解释 AI（XAI）方法，真实地反映了模型的推理过程，提高了解释的鲁棒性。通过采用向量视角考虑滤波器之间复杂的非线性相互作用，我们与传统的神经级别方法不同，我们引入了一个有趣的观察称为仅激活模式预测（APOP），让我们强调不活跃神经元的重要性，并重新定义了包含所有相关信息的相关性，包括活动和不活动的神经元。我们的方法 SRD 允许对逐点特征向量（PFV）进行递归分解，在任何层提供高分辨率的有效接收域（ERF）。

Abstract

The truthfulness of existing explanation methods in authentically elucidating the underlying model's decision-making process has been questioned. Existing methods have deviated from faithfully representing the model, thus susceptible to adversarial attacks. To address this, we propose

explanation methods xai srd robustness neuronal interactions

发现论文，激发创造

DXAI：通过图像分解解释分类

提出了一种新的神经网络分类的解释和可视化方法，通过分解为类不可知和类不同的部分来解释和可视化图像，不同于热力图的解释方法，更有助于在某些场景中提供丰富和信息量大的分类解释。

Dec, 2023

关于计算概率性还原解释

探索实用于广泛使用的决策树、朴素贝叶斯分类器和命题语言的几个家族更好地计算超过给定阈值的目标类的相关集，证实了这些类别的相对简洁的相关特征集可以很容易地获得。

Dec, 2022

利用可解释的人工智能来提高神经网络的性能

本研究提出了一种重新训练流程，使用 SHapley Additive explanations 值，从 XAI 入手并利用最先进的技术来增加模型的透明度和可信度，在人数统计场景和图像分类数据集上进行了实验验证，结果表明使用 SHAP-based 重新训练方法比使用相等加权训练方法更有效，分别提高了 4% 和 3% 的准确率。

Oct, 2022

解决谜题：推导深度网络的最优解释

通过整合不同的解释方法并利用非线性的 “解释优化器”，我们提出了一种新颖的框架，旨在增强深度神经网络的可解释性，并通过实验证实了其有效性。

May, 2024

从 “在哪里” 到 “是什么”: 通过概念关联传播实现人类可理解的解释

该论文介绍了概念相关传播 (CRP) 方法，该方法结合了本地和全局 XAI 的观点，从而允许回答单个预测的 “何时” 和 “何物” 的问题，而无需施加其他限制。作者进一步介绍了相关性最大化的原则，以找到编码概念的有用代表性示例。作者演示了该方法在各种不同的设置中的能力，展示了概念相关传播和相关性最大化如何通过概念地图、概念组合分析和概念子空间的量化调查及其在细粒度决策中的作用，提供更人性化的解释和深入的模型表示和推理见解。

Jun, 2022

解释反映决策吗？一种以机器为中心的策略来量化可解释性算法的性能

本次研究使用决策影响分析的方法，提出了两个指标来量化深度神经网络的可解释性方法的性能，并对几种最先进的解释性方法（LIME，SHAP，Expected Gradients，GSInquire）在 ResNet-50 深度卷积神经网络上进行了全面分析。实验结果表明，受测试图像中由 LIME 确定的关键区域对网络的决策过程的影响最小，SHAP，Expected Gradients 和 GSInquire 的影响逐渐增加，提出的机器 - 中心策略有助于推进评估可解释性方法的更好度量和提高深度神经网络的信任度。

Oct, 2019

基于深度神经网络的入侵检测系统的可解释性的多元规则提取

该研究论文探讨了黑盒算法和替代解释器在可解释入侵检测系统（X-IDS）中引发的信任问题。通过将教学法和分解法综合应用于课程，该文介绍了一种混合的规则提取算法，从隐藏层中提取出可信任的规则集，用于黑盒深度神经网络（DNN）的解释。评估结果表明，这种算法能够生成与 DNN 输出相似的规则集，具有 99.9% 的准确率，并在解释性和性能方面进行了全面分析，展示了规则提取速度和准确性之间的权衡。

Jan, 2024

XRand：差分隐私防御解释引导攻击

该研究介绍了一个叫做 XRand 的新的机制来保护基于特征的解释不被恶意利用，该机制使用局部差分隐私来限制攻击者对重要特征的了解。

Dec, 2022

解析 AI 归因方法的精确基准测试

我们提出了一种新的评估方法，用于基准测试最先进的可解释 AI 归因方法，该方法由合成的分类模型及其衍生的地面实况解释组成，该方法提供了关于 XAI 方法输出的更深入的洞察。

Aug, 2023

机器学习模型中的统一解释：一种扰动方法

面向可解释人工智能（XAI）的高速范式转变已在近年来出现。高度复杂的机器学习（ML）模型在许多智能任务中蓬勃发展，而问题开始从传统的有效性度量转向更深层次的问题：该模型告诉我关于我的数据什么，它是如何得出这些结论的？XAI 和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题，我们提出了一种针对流行的 XAI 的模型不可知方法 SHapley Additive exPlanations（Shap）进行系统的扰动分析。我们设计了一些算法，在动态推理的设置下生成相对特征重要性，这些设置针对一套流行的机器学习和深度学习方法，以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系，度量了一致性，并观察了几个数据集中解释模型之间的可量化相似性。

May, 2024