深度神经网络的解释处理

Nov, 2022

Foiling Explanations in Deep Neural Networks

Snir Vitrack Tamam, Raz Lapid, Moshe Sipper

TL;DR本文发现了一个问题：通过微调输入图像，我们可以演示图像识别的解释方式可以通过进化策略对其进行任意操作。通过我们的 Adversarial XAI 算法 AttaXAI，我们能够在不使用梯度或其他模型内部的情况下，成功地在黑盒设置下操作解释方法，从而实现了对图像做微小改变却使 XAI 方法输出特定解释的目标。

Abstract

deep neural networks (DNNs) have greatly impacted numerous fields over the past decade. Yet despite exhibiting superb performance over many problems, their black-box nature still poses a significant challenge with respect to explainability. Indeed, →

deep neural networks explainable artificial intelligence adversarial attack xai algorithms black-box setting

发现论文，激发创造

解决谜题：推导深度网络的最优解释

通过整合不同的解释方法并利用非线性的 “解释优化器”，我们提出了一种新颖的框架，旨在增强深度神经网络的可解释性，并通过实验证实了其有效性。

May, 2024

图像活动预测及其自然语言解释的黑盒攻击

解释性人工智能 (XAI) 方法旨在描述深度神经网络的决策过程。本文首次评估基于自我合理化的图像识别模型生成的自然语言解释在黑盒攻击下的鲁棒性，我们通过对预测结果和相应解释之间的关联进行空间上的无限制、变异性的干扰来误导模型生成不忠实的解释。我们表明，即使只能访问模型的最终输出，我们也能通过创建对抗性图像来操纵活动识别模型的解释。

Sep, 2023

探讨可解释人工智能方法对地球科学中卷积神经网络应用的保真度

本文通过对最流行的 XAI 方法的比较和探究它们在地球科学应用中的准确性，强调了 XAI 方法在 CNN 决策方法解释方面的重要性和局限性，并通过应用于气候相关预测来说明，帮助深层学习方法更好地用于预测问题

Feb, 2022

Greybox XAI: 一种神经符号学习框架，用于生成可解释的图像分类预测

通过形式化说明解释是什么，提出一些公理和定义来澄清可解释的人工智能的数学角度。最后，我们提出了一个 Greybox XAI 框架，该框架通过使用符号知识库将 DNN 和透明模型组成。我们从数据集中提取知识库，并使用它来训练透明模型（即逻辑回归）。然后，我们在 RGB 图像上训练编码器 - 解码器架构，以产生类似于透明模型使用的知识库的输出。一旦两个模型独立地训练好后，它们就在组成的形式上用于形成可以解释的预测模型。我们展示了这种新的架构在几个数据集中是准确的和可以解释的。

Sep, 2022

视觉解释的可解释人工智能基准

深度学习算法的崛起在计算机视觉任务中取得了重大进展，但它们的 “黑匣子” 性质引发了对可解释性的关注。可解释人工智能（XAI）作为一个重要的研究领域出现，旨在打开这个 “黑匣子”，并揭示人工智能模型的决策过程。视觉解释作为可解释人工智能的一个子集，通过突出显示输入图像中的重要区域，为处理视觉数据的人工智能模型的决策过程提供直观的见解。我们提出了一个 XAI 基准，其中包括来自不同主题的数据集集合，为图像提供了类别标签和相应的解释注释。我们引入了一个全面的视觉解释流程，在这个流程中整合了数据加载、预处理、实验设置和模型评估过程。此结构使研究人员能够公平比较各种视觉解释技术。此外，我们对视觉解释的超过 10 种评估方法进行综合评述，以帮助研究人员有效利用我们的数据集合。为了进一步评估现有的视觉解释方法的性能，我们使用各种以模型为中心和以真实标注为中心的评估指标在选定的数据集上进行实验。我们希望这个基准可以推动视觉解释模型的进步。这个 XAI 数据集合和用于评估的易于使用的代码公开可访问。

Oct, 2023

可解释人工智能中的对抗攻击和防御：一项调查

该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述，并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI（可解释人工智能）不安全因素的列表，并概述了 Adversarial XAI（AdvXAI）的新兴研究方向。

Jun, 2023

揭示神经网络在参数学习和防御中的漏洞与对抗解释感知后门

通过统计分析卷积神经网络中的权重变化，我们设计了一种方法来防御现代可解释性对抗攻击，成功率下降了 99%，原始解释和防御后（攻击后）解释的均方误差减少了 91%。

Mar, 2024

深度神经网络的理解、可视化和解释调查

该篇论文综述了深度神经网络在机器学习中的应用，针对一些需要保证安全性的决策（如控制系统和医疗应用），介绍了当前解释性人工智能（XAI）领域的研究，探究和解释 DNNs 内部和整体行为的方法。

Feb, 2021

利用解释进行模型反演攻击

研究了解释型人工智能提供的隐私侵犯风险，以及通过多模态转置 CNN 架构和注意力转移等技术实现图像模型反转攻击，提高模型反转性能的方法。

Apr, 2021

走向可解释人工智能（XAI）：数据挖掘视角

通过数据挖掘方法和应用的角度，对深度神经网络进行可解释人工智能（XAI）的综合、数据中心的研究，并将现有工作分为三类：对深层模型的解释、对训练数据的影响以及领域知识的洞察。

Jan, 2024