Nov, 2023

评估地面事实解释时要小心

TL;DR评估图像分类器关于人类感知定义的地面真实标记(例如分割掩模)的解释,主要评估的是考虑中的模型的质量而不是解释方法自身。在这种观察的驱动下,我们提出了一个框架,用于联合评估将深度神经网络与解释方法相结合的安全关键系统的鲁棒性。这些系统在医学图像分析或机器人技术等实际应用中越来越广泛使用。我们引入了一种微调过程,将模型 - 解释的流程与地面真相错位,用它来量化人类对齐的最坏和最好情况之间的潜在差异。在各种模型架构和事后局部解释方法的实验中,我们对视觉变换器的鲁棒性和此类 AI 系统对潜在对抗攻击的整体脆弱性提供了洞见。