潜在扩散对抗解释

Oct, 2023

Latent Diffusion Counterfactual Explanations

Karim Farid, Simon Schrodi, Max Argus, Thomas Brox

TL;DR基于潜在扩散模型，引入了潜在扩散反事实解释 (LDCE)，用以快速生成反事实实例，并专注于数据的重要、语义部分；通过新颖的共识引导机制过滤出与扩散模型的隐式分类器不一致的嘈杂、对抗性梯度，展示了 LDCE 在各种学习范式下的多样性和黑盒模型行为的理解。

Abstract

counterfactual explanations have emerged as a promising method for elucidating the behavior of opaque black-box models. Recently, several works leveraged pixel-space diffusion models for counterfactual generation

counterfactual explanations diffusion models adversarial gradients latent diffusion models black-box model behavior

发现论文，激发创造

CoLa-DCE -- 概念引导的潜在扩散对抗性解释

通过 Concept-guided Latent Diffusion Counterfactual Explanations (CoLa-DCE) 方法生成概念导向的反事实解释，提供更高的控制度和更好的可理解性，以及对模型错误的帮助。

Jun, 2024

反事实解释的扩散模型

本论文提出 DiME 方法，在使用最近传播模型的同时利用引导生成扩散过程，充分利用目标分类器的梯度生成输入实例的反事实解释，进一步通过提出一个新的度量标准 —— 相关差异，分析了目前评估虚假相关性的方法，并进行实验验证，结果表明该算法在 CelebA 上优于之前的最新研究成果。

Mar, 2022

扩散视觉对抗解释

本文中，我们通过扩散过程生成任意 ImageNet 分类器的 DVCE，其关键在于自适应参数化以及锥形正则化，从而使得扩散过程不会收敛到微小的非语义变化，而是产生目标类的逼真图像并获得高分类置信度。

Oct, 2022

使用潜在扩散模型生成反事实轨迹进行概念发现

本研究介绍了一种用于发现概念的新颖框架 CDCT，通过潜在扩散的对偶轨迹，在黑盒模型中发现决策相关的概念，从而在各领域应用可靠的人工智能和进一步发展人类知识方面迈出了一步。

Apr, 2024

高斯混合分布潜在空间中的反事实解释搜索

通过改进自动编码器的潜空间生成方法，该论文介绍了一种新的生成反事实解释的方法，该方法在保持输入样本特征的同时能有效地返回更接近原始数据的结果，适用于高维机器学习应用。

Jul, 2023

通过潜在空间的解缠释义实现回归

本文提出了一种新的方法，通过首先将潜空间中的标签无关特征与预定义的输出相结合，以为预先训练的回归器生成对立解释。通过在潜空间中搜索，我们展示了该方法在回归问题设置下重要高维机器学习应用中具有竞争力。

Nov, 2023

利用生成潜空间中的对比可反事实来解释图像分类器

在不需要重新训练或调整的情况下，使用预训练的生成模型，介绍了生成因果关系和可解释的反事实解释方法，以提供对黑匣子算法的透明性，并获得对面部属性分类器的对比和因果支持和必要分数，从而展示不同属性如何影响分类器输出。

Jun, 2022

超越琐碎的反事实解释：拥有多样有价值的解释

该论文提出了 DiVE 方法，通过在分散的潜在空间中学习扰动并使用多样性强制损失进行约束，从而揭示与模型预测相关的多个有价值的解释，以防止模型产生微不足道的解释。实验证明，与之前的最新方法相比，我们的模型可以提高高质量有价值解释的成功率。

Mar, 2021

通过结构扩散导航有结构的假设空间：生成反事实对照

通过扩散模型生成结构化数据的反事实解释，以黑盒神经网络模型为基础，并且达到与现有最先进技术相比较高的可信度、接近性和多样性。

Dec, 2023

对抗性反事实视觉解释

本文提出了一种由扰动攻击变成语义上的有意义的扰动来进行反事实解释的方法，该方法在扰动攻击时使用去噪扩散概率模型以避免高频率和超出分布的扰动，从而使得研究目标模型不受其鲁棒性水平的限制。通过在多个测试平台上的实验验证，我们的反事实解释方法展现出明显的优势。

Mar, 2023