ICCVSep, 2023

图像活动预测及其自然语言解释的黑盒攻击

TL;DR解释性人工智能 (XAI) 方法旨在描述深度神经网络的决策过程。本文首次评估基于自我合理化的图像识别模型生成的自然语言解释在黑盒攻击下的鲁棒性,我们通过对预测结果和相应解释之间的关联进行空间上的无限制、变异性的干扰来误导模型生成不忠实的解释。我们表明,即使只能访问模型的最终输出,我们也能通过创建对抗性图像来操纵活动识别模型的解释。