使用反事实频率（CoF）表揭示图像分类器的捷径

May, 2024

使用反事实频率（CoF）表揭示图像分类器的捷径

Exposing Image Classifier Shortcuts with Counterfactual Frequency (CoF) Tables

James Hinns, David Martens

TL;DR深度学习中的短路问题及可解释 AI 的解决方案：引入反事实频率表的方法将示例级解释汇总成全局洞见，揭示所学习到的短路。

Abstract

The rise of deep learning in image classification has brought unprecedented accuracy but also highlighted a key issue: the use of 'shortcuts' by models. Such →

deep learning shortcuts explainable ai counterfactual frequency tables semantic concepts

发现论文，激发创造

基于快速扩散的去除和生成捷径的对抗样本

通过快速扩散基于反事实的图像生成和基于修补的修改方法，我们检测和量化潜在的捷径特征对模型预测的影响。我们通过在两个大型胸部 X 射线数据集、一个皮肤病损数据集和 CelebA 上确认，验证了我们的方法在推理速度显著提升、图像质量与最先进技术可比的同时的有效性。

Dec, 2023

利用生成潜空间中的对比可反事实来解释图像分类器

在不需要重新训练或调整的情况下，使用预训练的生成模型，介绍了生成因果关系和可解释的反事实解释方法，以提供对黑匣子算法的透明性，并获得对面部属性分类器的对比和因果支持和必要分数，从而展示不同属性如何影响分类器输出。

Jun, 2022

借助反事实知识蒸馏来纠正 Clever-Hans 预测器

本文介绍了一种被称为反事实知识蒸馏 (CFKD) 的新技术，通过人类专家反馈帮助检测和消除深度学习模型对混淆因素的依赖。该技术在受监管或安全关键领域有着重要作用，论文还展示了反事实解释相对于其他类型解释的优点，并提出了一个实验方案来定量评估 CFKD 的成功情况以及能够对模型提供反馈的不同教师。同时还引入了一个与真实测试性能更相关的新度量方式。通过在合成增强数据集和真实组织病理学数据集上进行的实验，论文证明了 CFKD 的有效性。

Oct, 2023

利用反事实图像强化预训练模型

该论文提出了一种新的框架，通过语言引导生成对抗图片来加强分类模型。通过使用对抗图片数据集来测试模型的弱点，并将对抗图片作为增加的数据集来微调和加固分类模型，研究揭示了使用小规模对抗图片进行微调可以有效增强模型的性能。

Jun, 2024

针对表格数据的学习模型无关反事实解释

本文提出了一种新的方法 ——C-CHVAE，该方法可以生成可实现的反事实解释，以更好地满足反事实解释的质量要求。

Oct, 2019

使用反事实推论的因果视角评估和缓解图像分类器中的偏差

该研究提出了一种利用结构原因模型和 ALI 生成对抗学习算法，生成能满足图像属性之间因果关系约束的反事实例，用于解释和评估神经网络模型的偏差，并使用反事实正则化方法消除分类器训练数据中对皮肤和头发颜色等多维属性的偏见。

Sep, 2020

自知的鉴别反事实解释

该研究提出了一种新的判别性反事实视觉解释方法，通过结合三个归属图来计算反事实图，从而更快地获得表现良好的结果，并通过一套量化指标来评价结果。

Apr, 2020

使用自然语言生成反事实解释

本文提出了一种基于深度神经网络的自然语言解释方法用于图像的分类，其中通过缺失证据来产生反事实解释，并提出了自动度量以分析所生成的反事实解释。

Jun, 2018

PermuteAttack: 机器学习信用评分卡的反事实说明

本文提出了一个基于对抗性生成的数据方法的模型评估和解释框架，该方法可用于信贷评分系统中的机器学习算法，该算法应用于表格形式的金融数据，包括离散和分类变量，并使用基于遗传算法的无梯度优化进行优化。

Aug, 2020

神经网络在图像分类中学习了什么？一个频率捷径的视角

频率分析这一研究领域在理解神经网络中的表示学习机制方面具有重要作用。本研究通过实证调查，扩展了对频率快捷方式的理解，并验证了其在分类任务中的应用，结果显示频率快捷方式是可转移的，且无法完全避免，建议未来的研究应该专注于有效的训练方案以减轻频率快捷方式的学习。

Jul, 2023