快速实时的反事实解释
在不需要重新训练或调整的情况下,使用预训练的生成模型,介绍了生成因果关系和可解释的反事实解释方法,以提供对黑匣子算法的透明性,并获得对面部属性分类器的对比和因果支持和必要分数,从而展示不同属性如何影响分类器输出。
Jun, 2022
本文提出了一种新型的生成式反事实性解释框架,旨在生产可信度高、修改最小、保留结构的高质量图像。同时介绍了 “针对区域的反事实性解释” 概念和相应框架,通过指定图像的语义区域来指导反事实性产生,证明了该框架在高质量人像和复杂场景等数据集上的有效性。
Nov, 2021
本研究提出一种新颖的方法 C3LT,它能够自动生成高质量的 CF 图像并且不需要优化时间。该方法采用生成模型的潜在空间中的循环一致性来实现,在 ImageNet 数据集上进行了充分的实验验证。
Mar, 2022
该研究提出了一种黑盒对抗解释器来解释医学应用中的图像分类模型,并通过对诊断放射学居民进行实验,发现反事实解释是唯一能显着提高用户对分类器决策理解的解释方法。
Jan, 2021
论文提出了一种理性敏感的方法来生成语言多样且标签翻转的反事实数据,同时保持逻辑关系,并通过检查和过滤模块对反事实数据进行规范化,实验结果表明该方法优于基准模型,并且能够生成语言多样的反事实数据而不破坏其逻辑关系。
Oct, 2023
提出了一个统一框架,利用图像到图像转换生成对抗网络 (GANs) 生成对抗性样本,以增强可解释性,并扩充数据集以提高对抗性鲁棒性。该框架通过将分类器和辨别器结合成一个单一模型,将真实图像归类为相应的类别,并将生成的图像标记为 “伪造”,以实现这一目标。在具体裂缝的语义分割任务中,评估了方法的有效性,并在水果缺陷检测问题上评估了模型对投影梯度下降 (PGD) 攻击的鲁棒性。我们生成的显著性地图具有很高的描述性,尽管仅在分类标签上进行训练,但与传统分割模型相比,其竞争性 IoU 值表现。此外,该模型对抗性攻击的鲁棒性得到了改善,并展示了辨别器的 “伪造” 值作为预测的不确定性度量。
Oct, 2023
在机器学习中,理解分类器推荐或预测背后的推理对用户非常重要。然而,学习的模型通常太复杂,以至于人类难以理解。本文提出了一个通用框架,用于在文本领域生成反事实解释,这个框架是不限于模型、表示和领域的,并且可以随时使用。本文将任务建模为通过替换文本的各个部分来转换初始状态为分类文本的搜索问题,包括独立于领域的运算符,但也可以通过专门的运算符利用领域特定的知识。搜寻算法试图找到距离原始分类对象具有最小的基于单词级别的 Levenshtein 距离的互补类文本。
Nov, 2022
该论文提出了一种生成利用条件生成模型来生成稀疏的、在分布中反事实模型解释的通用框架,可适用于不同模态的数据,并说明了该方法在图像、时间序列和混合类型表格数据上的有效性。
Jan, 2021
本研究提出了一种以物体为中心的框架来生成反事实解释,该方法通过将查询图像编码到潜在空间中,以便在物体级别上进行操作,并且可以适用于驾驶场景的反事实解释基准测试,并且设计并运行了用户研究以衡量反事实解释在理解决策模型方面的有用性。
Nov, 2022