生成式对抗性内省：可解释深度学习

Jul, 2019

Generative Counterfactual Introspection for Explainable Deep Learning

Shusen Liu, Bhavya Kailkhura, Donald Loveland, Yong Han

TL;DR本研究提出了一种基于生成模型的深度神经网络内省技术，使图像编辑更容易进行模型解释，该技术通过干预操作获取答案来回答反事实查询问题。在MNIST和CelebA数据集上使用所提出的内省方法揭示了给定分类器的有趣特性。

Abstract

In this work, we propose an introspection technique for deep neural networks that relies on a generative model to instigate salient editin

发现论文，激发创造

本文提出了一种基于深度神经网络的自然语言解释方法用于图像的分类，其中通过缺失证据来产生反事实解释，并提出了自动度量以分析所生成的反事实解释。

Jun, 2018

通过深度生成建模，我们将图像生成过程分解成独立的因果机制，从而产生反事实图像，提高了模型的新颖性和可解释性。在 MNIST 和 ImageNet 上的实验表明，这些反事实图像能够提高模型的抗干扰性，而且这个模型能在单 GPU 上高效训练。

Jan, 2021

该论文提出了一种生成利用条件生成模型来生成稀疏的、在分布中反事实模型解释的通用框架，可适用于不同模态的数据，并说明了该方法在图像、时间序列和混合类型表格数据上的有效性。

Jan, 2021

该论文提出了DiVE方法，通过在分散的潜在空间中学习扰动并使用多样性强制损失进行约束，从而揭示与模型预测相关的多个有价值的解释，以防止模型产生微不足道的解释。实验证明，与之前的最新方法相比，我们的模型可以提高高质量有价值解释的成功率。

Mar, 2021

本文提出了一种新型的生成式反事实性解释框架，旨在生产可信度高、修改最小、保留结构的高质量图像。同时介绍了“针对区域的反事实性解释”概念和相应框架，通过指定图像的语义区域来指导反事实性产生，证明了该框架在高质量人像和复杂场景等数据集上的有效性。

Nov, 2021

本论文提出DiME方法，在使用最近传播模型的同时利用引导生成扩散过程，充分利用目标分类器的梯度生成输入实例的反事实解释，进一步通过提出一个新的度量标准——相关差异，分析了目前评估虚假相关性的方法，并进行实验验证，结果表明该算法在CelebA上优于之前的最新研究成果。

Mar, 2022

使用多目标优化模型，通过生成逆因模型生成可信的对抗实例，以提高深度学习模型的透明度，检测偏见和数据不当的形式。

May, 2022

本研究提出了一种以物体为中心的框架来生成反事实解释，该方法通过将查询图像编码到潜在空间中，以便在物体级别上进行操作，并且可以适用于驾驶场景的反事实解释基准测试，并且设计并运行了用户研究以衡量反事实解释在理解决策模型方面的有用性。

Nov, 2022

提出使用因果生成学习作为解释图像分类器的可解释工具，利用生成对事实推理方法研究视觉特征和因果因素对分类器决策的影响，提供了针对可解释因果数据集的对抗解释方法，通过与OmnixAI开源工具进行对比，发现我们的方法提供的对事实解释更可解释，适用于生成高度可解释的对事实解释。

Jan, 2024

该论文提出了一种新的框架，通过语言引导生成对抗图片来加强分类模型。通过使用对抗图片数据集来测试模型的弱点，并将对抗图片作为增加的数据集来微调和加固分类模型，研究揭示了使用小规模对抗图片进行微调可以有效增强模型的性能。

Jun, 2024