针对对抗鲁棒和可解释分类器的反事实图像生成

Oct, 2023

针对对抗鲁棒和可解释分类器的反事实图像生成

Counterfactual Image Generation for adversarially robust and interpretable Classifiers

Rafael Bischof, Florian Scheidegger, Michael A. Kraus, A. Cristiano I. Malossi

TL;DR提出了一个统一框架，利用图像到图像转换生成对抗网络 (GANs) 生成对抗性样本，以增强可解释性，并扩充数据集以提高对抗性鲁棒性。该框架通过将分类器和辨别器结合成一个单一模型，将真实图像归类为相应的类别，并将生成的图像标记为 “伪造”，以实现这一目标。在具体裂缝的语义分割任务中，评估了方法的有效性，并在水果缺陷检测问题上评估了模型对投影梯度下降 (PGD) 攻击的鲁棒性。我们生成的显著性地图具有很高的描述性，尽管仅在分类标签上进行训练，但与传统分割模型相比，其竞争性 IoU 值表现。此外，该模型对抗性攻击的鲁棒性得到了改善，并展示了辨别器的 “伪造” 值作为预测的不确定性度量。

Abstract

neural image classifiers are effective but inherently hard to interpret and susceptible to adversarial attacks. Solutions to both problems exist, among others, in the form of →

neural image classifiers counterfactual examples generation image-to-image translation gans interpretability adversarial attacks

发现论文，激发创造

利用对抗样本进行偏见缓解和准确性增强

利用对抗生成和微调的新方法来减轻计算机视觉模型中的偏见，通过使用欺骗深度神经网络但不欺骗人类的对抗图像作为反事实进行公正模型训练，通过 qualitatively 和 quantitatively 的评估证明了相比于现有方法，我们的方法实现了改进的偏见减轻和准确性。

Apr, 2024

利用生成潜空间中的对比可反事实来解释图像分类器

在不需要重新训练或调整的情况下，使用预训练的生成模型，介绍了生成因果关系和可解释的反事实解释方法，以提供对黑匣子算法的透明性，并获得对面部属性分类器的对比和因果支持和必要分数，从而展示不同属性如何影响分类器输出。

Jun, 2022

CounteRGAN：使用剩余生成对抗网络生成逼真对抗事实

使用生成对抗网络（GANs）提出一种称为 CounteRGAN 的方法，以提高虚拟出的因果性的真实性和可操作性，并在实时情况下提高可行性来提供有意义的解释。

Sep, 2020

反事实生成网络

通过深度生成建模，我们将图像生成过程分解成独立的因果机制，从而产生反事实图像，提高了模型的新颖性和可解释性。在 MNIST 和 ImageNet 上的实验表明，这些反事实图像能够提高模型的抗干扰性，而且这个模型能在单 GPU 上高效训练。

Jan, 2021

利用反事实图像强化预训练模型

该论文提出了一种新的框架，通过语言引导生成对抗图片来加强分类模型。通过使用对抗图片数据集来测试模型的弱点，并将对抗图片作为增加的数据集来微调和加固分类模型，研究揭示了使用小规模对抗图片进行微调可以有效增强模型的性能。

Jun, 2024

对抗性反事实视觉解释

本文提出了一种由扰动攻击变成语义上的有意义的扰动来进行反事实解释的方法，该方法在扰动攻击时使用去噪扩散概率模型以避免高频率和超出分布的扰动，从而使得研究目标模型不受其鲁棒性水平的限制。通过在多个测试平台上的实验验证，我们的反事实解释方法展现出明显的优势。

Mar, 2023

混淆下的反事实生成

在机器学习中，当训练数据受到观测或未观测到的混淆影响时，生成的关系可能会与部署时相差较大。本文提出了一种基于因果生成过程的对抗性生成方法，以最小化生成因素之间的关联性，从而生成有效对抗性数据用于训练图像分类器，即使训练数据受到高度混淆的影响。

Oct, 2022

生成对抗性训练器：用 GAN 对抗对抗性扰动

我们提出了一种新的技术，使用生成对抗网络使神经网络对抗性示例具有鲁棒性，通过交替训练分类器和生成器网络，我们成功地应用于 CIFAR 数据集的监督学习，实验结果表明我们的方法显著降低了网络的泛化误差。这是我们所知道的第一个使用 GAN 改进监督学习的方法。

May, 2017

对抗消除伪造脸部图像的反事实解释

通过艺术品去除的视角提供了人脸伪造检测的反事实解释，并成功实现了对抗攻击的可转移性。

Apr, 2024

使用反事实推论的因果视角评估和缓解图像分类器中的偏差

该研究提出了一种利用结构原因模型和 ALI 生成对抗学习算法，生成能满足图像属性之间因果关系约束的反事实例，用于解释和评估神经网络模型的偏差，并使用反事实正则化方法消除分类器训练数据中对皮肤和头发颜色等多维属性的偏见。

Sep, 2020