本文提出了一种新的方法,通过首先将潜空间中的标签无关特征与预定义的输出相结合,以为预先训练的回归器生成对立解释。通过在潜空间中搜索,我们展示了该方法在回归问题设置下重要高维机器学习应用中具有竞争力。
Nov, 2023
提出了一种简单快速的生成可解释反事实解释的方法,无需辅助模型,使用分类器的预测不确定性,在 IM1 得分方面比现有方法生成更可解释的 CEs。此外,该方法还允许估计 CE 的不确定性,这在医疗等安全关键应用中可能非常重要。
Mar, 2021
基于潜在扩散模型,引入了潜在扩散反事实解释 (LDCE),用以快速生成反事实实例,并专注于数据的重要、语义部分;通过新颖的共识引导机制过滤出与扩散模型的隐式分类器不一致的嘈杂、对抗性梯度,展示了 LDCE 在各种学习范式下的多样性和黑盒模型行为的理解。
Oct, 2023
通过 Concept-guided Latent Diffusion Counterfactual Explanations (CoLa-DCE) 方法生成概念导向的反事实解释,提供更高的控制度和更好的可理解性,以及对模型错误的帮助。
Jun, 2024
通过引入自编码器重建损失,将分类器输出结果与自编码器的潜空间相连接,从而提高干预解释搜索过程的速度和解释干预结果的可解释性,尤其在自编码器以半监督方式训练的情况下进一步提高了其解释性。在多个数据集上的实验验证了该方法的有效性。
Mar, 2023
本研究引入了一种新的方法论,名为用户反馈式反事实解释(UFCE),以解决当前反事实解释算法的局限性,并旨在提高对提供的解释的置信度。实验证明,UFCE 在接近度、稀疏度和可行性方面胜过两种著名的 CE 方法,并指出用户约束对生成可行的反事实解释具有影响。
Feb, 2024
在不需要重新训练或调整的情况下,使用预训练的生成模型,介绍了生成因果关系和可解释的反事实解释方法,以提供对黑匣子算法的透明性,并获得对面部属性分类器的对比和因果支持和必要分数,从而展示不同属性如何影响分类器输出。
Jun, 2022
通过对属性的逻辑因果关系保护,使用黑箱模型作为分类器并利用变分自动编码器生成可行的对抗性示例,本研究在不同基准数据集上实验,成功生成可行且稀疏的对抗性示例,满足所有预定义的因果约束。
Apr, 2024
通过我们的新型扰动模型和自动 Frank-Wolfe 方案的高效优化,可以生成稀疏的视觉对抗解释,用以检测 ImageNet 分类器中的假特征。
May, 2022
本研究介绍了一种新的稳健随机图生成器 RSGG-CE,能够从学习的潜在空间产生可行的反事实例子,并通过定序生成序列考虑来量化和质化地比较 RSGG-CE 与现有方法生成反事实候选者的性能,凸显其更高的能力。
Dec, 2023