用扩散距离和方向连贯性增强反事实解释搜索

Apr, 2024

用扩散距离和方向连贯性增强反事实解释搜索

Enhancing Counterfactual Explanation Search with Diffusion Distance and Directional Coherence

Marharyta Domnich, Raul Vicente

TL;DR提出并测试了两种新的偏差，以增强对有效逆因对照解释的搜寻，方法为应用扩散距离和引入定向一致性项；通过在合成和实际数据集上进行一系列消融实验，证明了该方法的有效性。

Abstract

A pressing issue in the adoption of ai models is the increasing demand for more human-centric explanations of their predictions. To advance towards more →

ai models human-centric explanations counterfactual explanations diffusion distance coherent directional counterfactual explainer

发现论文，激发创造

CoLa-DCE -- 概念引导的潜在扩散对抗性解释

通过 Concept-guided Latent Diffusion Counterfactual Explanations (CoLa-DCE) 方法生成概念导向的反事实解释，提供更高的控制度和更好的可理解性，以及对模型错误的帮助。

Jun, 2024

反事实解释的扩散模型

本论文提出 DiME 方法，在使用最近传播模型的同时利用引导生成扩散过程，充分利用目标分类器的梯度生成输入实例的反事实解释，进一步通过提出一个新的度量标准 —— 相关差异，分析了目前评估虚假相关性的方法，并进行实验验证，结果表明该算法在 CelebA 上优于之前的最新研究成果。

Mar, 2022

利用特征空间中的马氏距离和分布偏好提升反事实图像生成

本文介绍了一种在黑盒模型特征空间中计算特征重要性的新方法，并利用信息融合技术将特征反事实解释转化为图像反事实解释。实验结果表明，我们的方法生成的反事实解释在像素和特征空间上与原始图像非常相似，并且表现优于已有的基准模型，获得了令人印象深刻的实验结果。

May, 2024

潜在扩散对抗解释

基于潜在扩散模型，引入了潜在扩散反事实解释 (LDCE)，用以快速生成反事实实例，并专注于数据的重要、语义部分；通过新颖的共识引导机制过滤出与扩散模型的隐式分类器不一致的嘈杂、对抗性梯度，展示了 LDCE 在各种学习范式下的多样性和黑盒模型行为的理解。

Oct, 2023

有关重大决策的通用反事实解释模型

该研究提出了一种基于形式验证的算法，使用逻辑公式表示距离函数（目标）和预测模型（约束），解决满足性问题生成最接近的反事实解释，能够生成可行的多样化反事实解释来满足 100% 的覆盖率。

May, 2019

反事实解释方向对 xAI 用户行为的影响

用户研究表明，升向因果解释（upward CFE）可提高模型和用户的效率和知识水平，并强调了混合因果解释（mixed CFEs）相对于降向因果解释（downward CFEs）或无解释的潜在益处。

Jun, 2023

基于深度学习的交通预测的对立解释

通过反事实解释方法增强可解释性和可用性，揭示深度学习模型学习的交通模式，提高交通预测模型的透明性和可理解性。

May, 2024

自知的鉴别反事实解释

该研究提出了一种新的判别性反事实视觉解释方法，通过结合三个归属图来计算反事实图，从而更快地获得表现良好的结果，并通过一套量化指标来评价结果。

Apr, 2020

全球反事实方向

本文研究了一种全局化的视觉反事实解释方法，通过发现扩散自动编码器的潜在空间可以编码给定分类器的推理过程，提出一种新的基于代理的方法，以完全黑盒方式推断出两种全局反事实方向（GCDs），并展示了与潜在综合梯度相结合的新的黑盒归因方法，同时加强了对反事实解释的理解。

Apr, 2024

借助反事实知识蒸馏来纠正 Clever-Hans 预测器

本文介绍了一种被称为反事实知识蒸馏 (CFKD) 的新技术，通过人类专家反馈帮助检测和消除深度学习模型对混淆因素的依赖。该技术在受监管或安全关键领域有着重要作用，论文还展示了反事实解释相对于其他类型解释的优点，并提出了一个实验方案来定量评估 CFKD 的成功情况以及能够对模型提供反馈的不同教师。同时还引入了一个与真实测试性能更相关的新度量方式。通过在合成增强数据集和真实组织病理学数据集上进行的实验，论文证明了 CFKD 的有效性。

Oct, 2023