IJCAIJun, 2023

可解释人工智能中的对抗攻击和防御:一项调查

TL;DR该论文对 50 多篇与机器学习模型解释袭击和公正性度量有关的研究进行了简要综述,并讨论了如何防御攻击和设计稳健的解释方法。该论文提出了现有 XAI(可解释人工智能)不安全因素的列表,并概述了 Adversarial XAI(AdvXAI)的新兴研究方向。