Oct, 2023

针对对抗鲁棒和可解释分类器的反事实图像生成

TL;DR提出了一个统一框架,利用图像到图像转换生成对抗网络 (GANs) 生成对抗性样本,以增强可解释性,并扩充数据集以提高对抗性鲁棒性。该框架通过将分类器和辨别器结合成一个单一模型,将真实图像归类为相应的类别,并将生成的图像标记为 “伪造”,以实现这一目标。在具体裂缝的语义分割任务中,评估了方法的有效性,并在水果缺陷检测问题上评估了模型对投影梯度下降 (PGD) 攻击的鲁棒性。我们生成的显著性地图具有很高的描述性,尽管仅在分类标签上进行训练,但与传统分割模型相比,其竞争性 IoU 值表现。此外,该模型对抗性攻击的鲁棒性得到了改善,并展示了辨别器的 “伪造” 值作为预测的不确定性度量。