图像活动预测及其自然语言解释的黑盒攻击

ICCVSep, 2023

图像活动预测及其自然语言解释的黑盒攻击

Black-box Attacks on Image Activity Prediction and its Natural Language Explanations

Alina Elena Baia, Valentina Poggioni, Andrea Cavallaro

TL;DR解释性人工智能 (XAI) 方法旨在描述深度神经网络的决策过程。本文首次评估基于自我合理化的图像识别模型生成的自然语言解释在黑盒攻击下的鲁棒性，我们通过对预测结果和相应解释之间的关联进行空间上的无限制、变异性的干扰来误导模型生成不忠实的解释。我们表明，即使只能访问模型的最终输出，我们也能通过创建对抗性图像来操纵活动识别模型的解释。

Abstract

explainable ai (xai) methods aim to describe the decision process of deep neural networks. Early xai methods produced visual explanations,

explainable ai xai deep neural networks white-box adversarial attacks black-box attacks

发现论文，激发创造

深度神经网络的解释处理

本文发现了一个问题：通过微调输入图像，我们可以演示图像识别的解释方式可以通过进化策略对其进行任意操作。通过我们的 Adversarial XAI 算法 AttaXAI，我们能够在不使用梯度或其他模型内部的情况下，成功地在黑盒设置下操作解释方法，从而实现了对图像做微小改变却使 XAI 方法输出特定解释的目标。

Nov, 2022

Greybox XAI: 一种神经符号学习框架，用于生成可解释的图像分类预测

通过形式化说明解释是什么，提出一些公理和定义来澄清可解释的人工智能的数学角度。最后，我们提出了一个 Greybox XAI 框架，该框架通过使用符号知识库将 DNN 和透明模型组成。我们从数据集中提取知识库，并使用它来训练透明模型（即逻辑回归）。然后，我们在 RGB 图像上训练编码器 - 解码器架构，以产生类似于透明模型使用的知识库的输出。一旦两个模型独立地训练好后，它们就在组成的形式上用于形成可以解释的预测模型。我们展示了这种新的架构在几个数据集中是准确的和可以解释的。

Sep, 2022

可解释人工智能中的对抗攻击和防御：一项调查

该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述，并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI（可解释人工智能）不安全因素的列表，并概述了 Adversarial XAI（AdvXAI）的新兴研究方向。

Jun, 2023

揭示神经网络在参数学习和防御中的漏洞与对抗解释感知后门

通过统计分析卷积神经网络中的权重变化，我们设计了一种方法来防御现代可解释性对抗攻击，成功率下降了 99%，原始解释和防御后（攻击后）解释的均方误差减少了 91%。

Mar, 2024

利用解释进行模型反演攻击

研究了解释型人工智能提供的隐私侵犯风险，以及通过多模态转置 CNN 架构和注意力转移等技术实现图像模型反转攻击，提高模型反转性能的方法。

Apr, 2021

视觉解释的可解释人工智能基准

深度学习算法的崛起在计算机视觉任务中取得了重大进展，但它们的 “黑匣子” 性质引发了对可解释性的关注。可解释人工智能（XAI）作为一个重要的研究领域出现，旨在打开这个 “黑匣子”，并揭示人工智能模型的决策过程。视觉解释作为可解释人工智能的一个子集，通过突出显示输入图像中的重要区域，为处理视觉数据的人工智能模型的决策过程提供直观的见解。我们提出了一个 XAI 基准，其中包括来自不同主题的数据集集合，为图像提供了类别标签和相应的解释注释。我们引入了一个全面的视觉解释流程，在这个流程中整合了数据加载、预处理、实验设置和模型评估过程。此结构使研究人员能够公平比较各种视觉解释技术。此外，我们对视觉解释的超过 10 种评估方法进行综合评述，以帮助研究人员有效利用我们的数据集合。为了进一步评估现有的视觉解释方法的性能，我们使用各种以模型为中心和以真实标注为中心的评估指标在选定的数据集上进行实验。我们希望这个基准可以推动视觉解释模型的进步。这个 XAI 数据集合和用于评估的易于使用的代码公开可访问。

Oct, 2023

网络安全可解释人工智能调查

通过对网络系统中的网络驱动安全威胁和问题进行系统分类，本文就网络安全中的可解释人工智能问题进行了回顾和研究，探讨了解释人工智能目前的挑战和局限性，并提出了未来的研究方向。

Mar, 2023

交互作用：一种基于用户交互的图像分类模型解释方法

通过用户互动，我们提出了一种基于互动的可解释的 AI 方法，通过修改图像来观察分类结果的变化，使用户能够辨别影响模型决策过程的关键特征，从而将他们的心智模型与模型逻辑对齐。该方法通过用户参与和理解为可解释的 AI 系统提供了更直观和易于访问的方式。

Apr, 2024

分析开放存储库中 AI 视觉模型在对抗攻击下的质量属性

我们提出了一个集成的过程，用于验证 AI 模型的准确性、评估其鲁棒性以及比较解释效用，并展示了六种计算机视觉模型在不同扰动和 XAI 方法下的评估结果。

Jan, 2024

计算机视觉中基于归因的可解释 AI 方法综述

本文对计算机视觉中基于归因的 Explainable AI (XAI) 方法进行了全面概述，并回顾了梯度、扰动和对比方法，提供了开发和评估强健 XAI 方法的关键挑战的见解。

Nov, 2022