通过有意义的扰动提供黑匣子的可解释性解释
本文探究了解释深度学习预测的方法对于随机扰动的敏感性,发现即使对于具有同一预测标签的两个感官不可分的输入,这些方法也会得出非常不同的解释结果,并分析了导致这种脆弱性的几何原因。
Oct, 2017
通过敌对训练的方法,我们提出了一个生成稳健且高保真黑盒模型解释的新框架,尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题,本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释,实验发现我们的方法显著提高了解释的鲁棒性,而不会在原始数据分布上牺牲解释的保真度。
Nov, 2020
在黑盒神经网络的基础上,通过训练第二个网络来预测对预备的黑盒分类器的贡献,并将这些贡献以只显示与分类器相关部分的蒙版的形式提供,我们的方法可以直接在单个前向传递中生成非常明显的类特定蒙版。
May, 2022
人工智能的解释方法对理解深度学习中的决策过程具有重要意义,通过研究对比了三种解释方法的可解释性,结果显示这些方法虽然强调的区域各不相同,但都能提供人类几乎相等的深度理解,进一步增强了这些方法在提升人工智能透明度方面的价值。
Oct, 2023
该研究提出了一种黑盒对抗解释器来解释医学应用中的图像分类模型,并通过对诊断放射学居民进行实验,发现反事实解释是唯一能显着提高用户对分类器决策理解的解释方法。
Jan, 2021
本研究提出了一种理论框架和三种不同技术来提高对解释的稳健性。通过训练方法,激活函数的平滑以及网络 Hessian 的最小化,实现了对提高模型的抗干扰能力。实验结果证实了这些方法的有效性。
Dec, 2020
本文研究如何对黑盒人工智能系统进行可解释性分析,提出了 CAD-Detect 和 CAD-Defend 两个算法来探测和防御对应的对抗性攻击,并使用 KNN-CAD 来进行条件异常值检测,实现了对真实数据中的 LIME 和 SHAP 可解释性算法的对抗攻击检测和缓解。
May, 2022