扩散视觉对抗解释

Oct, 2022

Diffusion Visual Counterfactual Explanations

Maximilian Augustin, Valentyn Boreiko, Francesco Croce, Matthias Hein

TL;DR本文中，我们通过扩散过程生成任意 ImageNet 分类器的 DVCE，其关键在于自适应参数化以及锥形正则化，从而使得扩散过程不会收敛到微小的非语义变化，而是产生目标类的逼真图像并获得高分类置信度。

Abstract

visual counterfactual explanations (VCEs) are an important tool to understand the decisions of an image classifier. They are 'small' but 'realistic' semantic changes of the image changing the classifier decision. Current approaches for the generation of VCEs are restricted to

visual counterfactual explanations adversarially robust models image classification diffusion visual counterfactual explanations imagenet

发现论文，激发创造

基于扩散的视觉反事实解释 —— 朝向系统化定量评估

最新的视觉反事实解释方法利用深度生成模型的能力合成了高维度图像的新示例，本研究提出了一个系统的、量化的评估框架以及一组最小的指标，探索了最新的基于扩散的生成模型在自然图像分类的反事实解释方面的关键设计选择的效果，并通过产生数千个反事实解释来对各种复杂度、准确性和鲁棒性的分类器进行了一系列消融实验，为未来反事实解释方法的进一步改进和发展提出了多个方向，通过分享研究方法和解决计算挑战的方法，为该领域的研究人员提供了宝贵的指导，促进了对反事实解释的评估的一致性和透明度。

Aug, 2023

图像空间中的稀疏视觉对抗解释

通过我们的新型扰动模型和自动 Frank-Wolfe 方案的高效优化，可以生成稀疏的视觉对抗解释，用以检测 ImageNet 分类器中的假特征。

May, 2022

通过扩散引导分析和解释图像分类器

通过生成图像的方式来优化分类器结果、分析图像分类器的行为和决策、检测系统错误并可视化神经元，验证现有观察结果并发现新的错误模式或有害的虚假特征。

Nov, 2023

潜在扩散对抗解释

基于潜在扩散模型，引入了潜在扩散反事实解释 (LDCE)，用以快速生成反事实实例，并专注于数据的重要、语义部分；通过新颖的共识引导机制过滤出与扩散模型的隐式分类器不一致的嘈杂、对抗性梯度，展示了 LDCE 在各种学习范式下的多样性和黑盒模型行为的理解。

Oct, 2023

CoLa-DCE -- 概念引导的潜在扩散对抗性解释

通过 Concept-guided Latent Diffusion Counterfactual Explanations (CoLa-DCE) 方法生成概念导向的反事实解释，提供更高的控制度和更好的可理解性，以及对模型错误的帮助。

Jun, 2024

反事实解释的扩散模型

本论文提出 DiME 方法，在使用最近传播模型的同时利用引导生成扩散过程，充分利用目标分类器的梯度生成输入实例的反事实解释，进一步通过提出一个新的度量标准 —— 相关差异，分析了目前评估虚假相关性的方法，并进行实验验证，结果表明该算法在 CelebA 上优于之前的最新研究成果。

Mar, 2022

VCNet: 用于生成逼真反事实的自我解释模型

提出了 VCNet-Variational Counter Net，这是一个用于回归或分类的模型架构，它能够同时生成预测和接近预测类分布的因果解释，该模型在表格数据集上的实证评估结果表明，其结果与最先进的方法相当竞争。

Dec, 2022

逆事实例子是否使对抗性训练变得复杂？

我们利用扩散模型研究了鲁棒分类器的鲁棒性和性能之间的权衡。我们的方法引入了一个简单的预训练扩散方法来生成低范数的反事实例：语义上改变的数据导致不同的真实类别成员身份。我们报告在干净的训练数据上，鲁棒模型的置信度和准确性与数据与反事实例的接近程度相关。此外，当直接在反事实例上进行评估时，鲁棒模型的性能非常差，因为它们对反事实例通过低范数和语义变化而变得越来越不变。结果表明，非鲁棒和语义特征之间存在显著的重叠，与普遍的非鲁棒特征不可解释的假设相反。

Apr, 2024

超越琐碎的反事实解释：拥有多样有价值的解释

该论文提出了 DiVE 方法，通过在分散的潜在空间中学习扰动并使用多样性强制损失进行约束，从而揭示与模型预测相关的多个有价值的解释，以防止模型产生微不足道的解释。实验证明，与之前的最新方法相比，我们的模型可以提高高质量有价值解释的成功率。

Mar, 2021

对抗性反事实视觉解释

本文提出了一种由扰动攻击变成语义上的有意义的扰动来进行反事实解释的方法，该方法在扰动攻击时使用去噪扩散概率模型以避免高频率和超出分布的扰动，从而使得研究目标模型不受其鲁棒性水平的限制。通过在多个测试平台上的实验验证，我们的反事实解释方法展现出明显的优势。

Mar, 2023