文字 - 图像模型：反事实解释的黑盒操作方法

Sep, 2023

文字 - 图像模型：反事实解释的黑盒操作方法

Text-to-Image Models for Counterfactual Explanations: a Black-Box Approach

Guillaume Jeanneret, Loïc Simon, Frédéric Jurie

TL;DR该研究提出了一种基于蒸馏的黑盒逆因果解释方法，使用只有图像和其预测结果的信息生成对分类器预测进行改变所需的最少必要特征，从而达到与其他方法相当的解释效果。

Abstract

This paper addresses the challenge of generating counterfactual explanations (CEs), involving the identification and modification of the fewest necessary features to alter a classifier's prediction for a given image. Our proposed method, →

counterfactual explanations text-to-image models distillation stable diffusion black-box setting

发现论文，激发创造

基于实例的时间序列分类对抗解释

本文提出了一种模型无关的案例技术 ——Native Guide，用于生成时间序列分类器的反事实解释，该技术通过突出和修改分类的基础部分来调整已有的反事实情况，并通过两个比较实验的定量和定性结果验证了其优越性。

Sep, 2020

潜在扩散对抗解释

基于潜在扩散模型，引入了潜在扩散反事实解释 (LDCE)，用以快速生成反事实实例，并专注于数据的重要、语义部分；通过新颖的共识引导机制过滤出与扩散模型的隐式分类器不一致的嘈杂、对抗性梯度，展示了 LDCE 在各种学习范式下的多样性和黑盒模型行为的理解。

Oct, 2023

平滑解释黑匣子 —— 反事实方法

该研究提出了一种黑盒对抗解释器来解释医学应用中的图像分类模型，并通过对诊断放射学居民进行实验，发现反事实解释是唯一能显着提高用户对分类器决策理解的解释方法。

Jan, 2021

文本分类的任意生成对抗解释

在机器学习中，理解分类器推荐或预测背后的推理对用户非常重要。然而，学习的模型通常太复杂，以至于人类难以理解。本文提出了一个通用框架，用于在文本领域生成反事实解释，这个框架是不限于模型、表示和领域的，并且可以随时使用。本文将任务建模为通过替换文本的各个部分来转换初始状态为分类文本的搜索问题，包括独立于领域的运算符，但也可以通过专门的运算符利用领域特定的知识。搜寻算法试图找到距离原始分类对象具有最小的基于单词级别的 Levenshtein 距离的互补类文本。

Nov, 2022

利用生成潜空间中的对比可反事实来解释图像分类器

在不需要重新训练或调整的情况下，使用预训练的生成模型，介绍了生成因果关系和可解释的反事实解释方法，以提供对黑匣子算法的透明性，并获得对面部属性分类器的对比和因果支持和必要分数，从而展示不同属性如何影响分类器输出。

Jun, 2022

使用自然语言生成反事实解释

本文提出了一种基于深度神经网络的自然语言解释方法用于图像的分类，其中通过缺失证据来产生反事实解释，并提出了自动度量以分析所生成的反事实解释。

Jun, 2018

DiffExplainer: 通过反事实生成揭示黑匣子模型

通过生成对抗图像，我们提出了一种方法来揭示影响黑盒模型的决策的关键特征，以提高医学图像分类中深度学习模型的可靠性。

Jun, 2024

反事实解释的扩散模型

本论文提出 DiME 方法，在使用最近传播模型的同时利用引导生成扩散过程，充分利用目标分类器的梯度生成输入实例的反事实解释，进一步通过提出一个新的度量标准 —— 相关差异，分析了目前评估虚假相关性的方法，并进行实验验证，结果表明该算法在 CelebA 上优于之前的最新研究成果。

Mar, 2022

OCTET: 基于对象的反事实解释

本研究提出了一种以物体为中心的框架来生成反事实解释，该方法通过将查询图像编码到潜在空间中，以便在物体级别上进行操作，并且可以适用于驾驶场景的反事实解释基准测试，并且设计并运行了用户研究以衡量反事实解释在理解决策模型方面的有用性。

Nov, 2022

针对反事实解释的条件生成模型

该论文提出了一种生成利用条件生成模型来生成稀疏的、在分布中反事实模型解释的通用框架，可适用于不同模态的数据，并说明了该方法在图像、时间序列和混合类型表格数据上的有效性。

Jan, 2021