AAAIMay, 2022

非欺骗性基于扰动的事后解释器

TL;DR本文研究如何对黑盒人工智能系统进行可解释性分析,提出了 CAD-Detect 和 CAD-Defend 两个算法来探测和防御对应的对抗性攻击,并使用 KNN-CAD 来进行条件异常值检测,实现了对真实数据中的 LIME 和 SHAP 可解释性算法的对抗攻击检测和缓解。