通过反事实生成解释图像分类器
在不需要重新训练或调整的情况下,使用预训练的生成模型,介绍了生成因果关系和可解释的反事实解释方法,以提供对黑匣子算法的透明性,并获得对面部属性分类器的对比和因果支持和必要分数,从而展示不同属性如何影响分类器输出。
Jun, 2022
提出了一个统一框架,利用图像到图像转换生成对抗网络 (GANs) 生成对抗性样本,以增强可解释性,并扩充数据集以提高对抗性鲁棒性。该框架通过将分类器和辨别器结合成一个单一模型,将真实图像归类为相应的类别,并将生成的图像标记为 “伪造”,以实现这一目标。在具体裂缝的语义分割任务中,评估了方法的有效性,并在水果缺陷检测问题上评估了模型对投影梯度下降 (PGD) 攻击的鲁棒性。我们生成的显著性地图具有很高的描述性,尽管仅在分类标签上进行训练,但与传统分割模型相比,其竞争性 IoU 值表现。此外,该模型对抗性攻击的鲁棒性得到了改善,并展示了辨别器的 “伪造” 值作为预测的不确定性度量。
Oct, 2023
该论文提出了一种新的框架,通过语言引导生成对抗图片来加强分类模型。通过使用对抗图片数据集来测试模型的弱点,并将对抗图片作为增加的数据集来微调和加固分类模型,研究揭示了使用小规模对抗图片进行微调可以有效增强模型的性能。
Jun, 2024
在机器学习中,当训练数据受到观测或未观测到的混淆影响时,生成的关系可能会与部署时相差较大。本文提出了一种基于因果生成过程的对抗性生成方法,以最小化生成因素之间的关联性,从而生成有效对抗性数据用于训练图像分类器,即使训练数据受到高度混淆的影响。
Oct, 2022
本文提出了一种生成反事实视觉解释的方法,用于多个图像分类数据集,结果表明该方法具有可解释性和区分性;同时,机器教学实验表明在鸟类分类任务中,提供反事实解释的人更容易区分鸟类物种。
Apr, 2019
该研究针对机器学习应用中存在的假相关问题,以图像分类为例,提出两种数据生成策略来减少此类问题,并在多个领域的数据集上表现出更好的准确性和更好的解释能力。
Jun, 2021
该研究提出了一种利用结构原因模型和 ALI 生成对抗学习算法,生成能满足图像属性之间因果关系约束的反事实例,用于解释和评估神经网络模型的偏差,并使用反事实正则化方法消除分类器训练数据中对皮肤和头发颜色等多维属性的偏见。
Sep, 2020
本文介绍了一种基于生成对抗网络 (GAN) 的方法,用于生成可以解释神经网络黑盒模型的替代性解释,进一步通过用户研究验证了替代性解释与反事实解释相辅相成。
May, 2024
通过深度生成建模,我们将图像生成过程分解成独立的因果机制,从而产生反事实图像,提高了模型的新颖性和可解释性。在 MNIST 和 ImageNet 上的实验表明,这些反事实图像能够提高模型的抗干扰性,而且这个模型能在单 GPU 上高效训练。
Jan, 2021