Dec, 2022

事後解釋對檢測未知假相關可能無效

TL;DR通过使用半合成数据集和预设的假象损伤,我们设计了一种经验方法,通过提供一组指标来评估解释方法在各种条件下检测虚假信号的可靠性。我们发现,当假象仅在测试时由解释方法的用户不知道时,后续解释方法测试是无效的,尤其是对于非可见的背景模糊等假象。同时我们也发现即使所解释的模型不依赖于虚假损伤,特征显著性方法也容易错误地指示对虚假信息的依赖。这一发现使得这些方法检测模型对虚假信号的依赖性的效用存在疑问。