通过反事实生成解释图像分类器

ICLRJul, 2018

Explaining Image Classifiers by Counterfactual Generation

Chun-Hao Chang, Elliot Creager, Anna Goldenberg, David Duvenaud

TL;DR通过将生成模型的条件设为图像的其余部分来取样逼真的图像填充，从而优化以找到在图像填充后最能改变分类器决策的图像区域，得到比以往更紧凑、更相关且更少艺术误差的显著图。

Abstract

When an image classifier makes a prediction, which parts of the image are relevant and why? We can rephrase this question to ask: which parts of the image, if they were not seen by the classifier, would most change its decision? Producing an answer requires →

image classifier marginalizing generative model saliency maps artifacts

发现论文，激发创造

利用生成潜空间中的对比可反事实来解释图像分类器

在不需要重新训练或调整的情况下，使用预训练的生成模型，介绍了生成因果关系和可解释的反事实解释方法，以提供对黑匣子算法的透明性，并获得对面部属性分类器的对比和因果支持和必要分数，从而展示不同属性如何影响分类器输出。

Jun, 2022

针对对抗鲁棒和可解释分类器的反事实图像生成

提出了一个统一框架，利用图像到图像转换生成对抗网络 (GANs) 生成对抗性样本，以增强可解释性，并扩充数据集以提高对抗性鲁棒性。该框架通过将分类器和辨别器结合成一个单一模型，将真实图像归类为相应的类别，并将生成的图像标记为 “伪造”，以实现这一目标。在具体裂缝的语义分割任务中，评估了方法的有效性，并在水果缺陷检测问题上评估了模型对投影梯度下降 (PGD) 攻击的鲁棒性。我们生成的显著性地图具有很高的描述性，尽管仅在分类标签上进行训练，但与传统分割模型相比，其竞争性 IoU 值表现。此外，该模型对抗性攻击的鲁棒性得到了改善，并展示了辨别器的 “伪造” 值作为预测的不确定性度量。

Oct, 2023

利用反事实图像强化预训练模型

该论文提出了一种新的框架，通过语言引导生成对抗图片来加强分类模型。通过使用对抗图片数据集来测试模型的弱点，并将对抗图片作为增加的数据集来微调和加固分类模型，研究揭示了使用小规模对抗图片进行微调可以有效增强模型的性能。

Jun, 2024

混淆下的反事实生成

在机器学习中，当训练数据受到观测或未观测到的混淆影响时，生成的关系可能会与部署时相差较大。本文提出了一种基于因果生成过程的对抗性生成方法，以最小化生成因素之间的关联性，从而生成有效对抗性数据用于训练图像分类器，即使训练数据受到高度混淆的影响。

Oct, 2022

反事实视觉解释

本文提出了一种生成反事实视觉解释的方法，用于多个图像分类数据集，结果表明该方法具有可解释性和区分性；同时，机器教学实验表明在鸟类分类任务中，提供反事实解释的人更容易区分鸟类物种。

Apr, 2019

通过反事实和不变数据生成实现强健的分类模型

该研究针对机器学习应用中存在的假相关问题，以图像分类为例，提出两种数据生成策略来减少此类问题，并在多个领域的数据集上表现出更好的准确性和更好的解释能力。

Jun, 2021

使用反事实推论的因果视角评估和缓解图像分类器中的偏差

该研究提出了一种利用结构原因模型和 ALI 生成对抗学习算法，生成能满足图像属性之间因果关系约束的反事实例，用于解释和评估神经网络模型的偏差，并使用反事实正则化方法消除分类器训练数据中对皮肤和头发颜色等多维属性的偏见。

Sep, 2020

相关无关性：为图像分类器生成对抗性解释

本文介绍了一种基于生成对抗网络 (GAN) 的方法，用于生成可以解释神经网络黑盒模型的替代性解释，进一步通过用户研究验证了替代性解释与反事实解释相辅相成。

May, 2024

使用自然语言生成反事实解释

本文提出了一种基于深度神经网络的自然语言解释方法用于图像的分类，其中通过缺失证据来产生反事实解释，并提出了自动度量以分析所生成的反事实解释。

Jun, 2018

反事实生成网络

通过深度生成建模，我们将图像生成过程分解成独立的因果机制，从而产生反事实图像，提高了模型的新颖性和可解释性。在 MNIST 和 ImageNet 上的实验表明，这些反事实图像能够提高模型的抗干扰性，而且这个模型能在单 GPU 上高效训练。

Jan, 2021