对抗性反事实视觉解释

CVPRMar, 2023

Adversarial Counterfactual Visual Explanations

Guillaume Jeanneret, Loïc Simon, Frédéric Jurie

TL;DR本文提出了一种由扰动攻击变成语义上的有意义的扰动来进行反事实解释的方法，该方法在扰动攻击时使用去噪扩散概率模型以避免高频率和超出分布的扰动，从而使得研究目标模型不受其鲁棒性水平的限制。通过在多个测试平台上的实验验证，我们的反事实解释方法展现出明显的优势。

Abstract

counterfactual explanations and adversarial attacks have a related goal: flipping output labels with minimal perturbations regardless of their characteristics. Yet, →

counterfactual explanations adversarial attacks diffusion models robust learning classifiers

发现论文，激发创造

透过对抗样本镜头探索反事实解释：理论和实证分析

通过对对抗样本技术和因果解释方法之间的形式化相似性的系统分析，我们提出了关于机器学习模型与因果解释算法之间的理论和经验相似性的研究，这引发了现有因果解释算法设计和开发的基本问题。

Jun, 2021

使用多目标优化探索反事实解释中的可信度、变化强度和对抗能力之间的权衡

使用多目标优化模型，通过生成逆因模型生成可信的对抗实例，以提高深度学习模型的透明度，检测偏见和数据不当的形式。

May, 2022

针对对抗鲁棒和可解释分类器的反事实图像生成

提出了一个统一框架，利用图像到图像转换生成对抗网络 (GANs) 生成对抗性样本，以增强可解释性，并扩充数据集以提高对抗性鲁棒性。该框架通过将分类器和辨别器结合成一个单一模型，将真实图像归类为相应的类别，并将生成的图像标记为 “伪造”，以实现这一目标。在具体裂缝的语义分割任务中，评估了方法的有效性，并在水果缺陷检测问题上评估了模型对投影梯度下降 (PGD) 攻击的鲁棒性。我们生成的显著性地图具有很高的描述性，尽管仅在分类标签上进行训练，但与传统分割模型相比，其竞争性 IoU 值表现。此外，该模型对抗性攻击的鲁棒性得到了改善，并展示了辨别器的 “伪造” 值作为预测的不确定性度量。

Oct, 2023

使用知觉球上的对抗扰动解释分类器

本文提出了一种基于视觉损失的对敌对扰动的简单正则化方法，用于解释图像分类器中的图像分类。这种半稀疏的扰动可以突出对象和感兴趣区域，使其与背景明显不同。通过在多个可解释性基准测试中进行评估，包括局部化、插入删除和指向游戏，证明了感知正则化反事实是图像分类器的有效解释。

Dec, 2019

利用对抗样本进行偏见缓解和准确性增强

利用对抗生成和微调的新方法来减轻计算机视觉模型中的偏见，通过使用欺骗深度神经网络但不欺骗人类的对抗图像作为反事实进行公正模型训练，通过 qualitatively 和 quantitatively 的评估证明了相比于现有方法，我们的方法实现了改进的偏见减轻和准确性。

Apr, 2024

生成对抗扰动

该研究提出了新型生成模型，用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验，它证明了这种扰动具有高弄虚率和较小的扰动规模，并且比当前的迭代方法更快。

Dec, 2017

语义与解释：为什么反事实解释在深度神经网络中产生对抗样本

深度学习系统的可解释性要求研究人员找到解释深层神经网络表示语义的方法，尽管对于某些情况，对立解释似乎非常有效，但它们与对抗示例在形式上是等价的，这为可解释性研究人员提供了明显的悖论。

Dec, 2020

潜在扩散对抗解释

基于潜在扩散模型，引入了潜在扩散反事实解释 (LDCE)，用以快速生成反事实实例，并专注于数据的重要、语义部分；通过新颖的共识引导机制过滤出与扩散模型的隐式分类器不一致的嘈杂、对抗性梯度，展示了 LDCE 在各种学习范式下的多样性和黑盒模型行为的理解。

Oct, 2023

对抗消除伪造脸部图像的反事实解释

通过艺术品去除的视角提供了人脸伪造检测的反事实解释，并成功实现了对抗攻击的可转移性。

Apr, 2024

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016