LIME 和 SHAP 欺骗:对事后解释方法的对抗攻击
本文研究如何对黑盒人工智能系统进行可解释性分析,提出了 CAD-Detect 和 CAD-Defend 两个算法来探测和防御对应的对抗性攻击,并使用 KNN-CAD 来进行条件异常值检测,实现了对真实数据中的 LIME 和 SHAP 可解释性算法的对抗攻击检测和缓解。
May, 2022
评估 LIME 和 SHAP 两种常用工具的用户可理解性和可预测性,发现 SHAP 对于接近模型决策边界的样本提供的解释可理解性显著降低。此外,发现反事实解释和错误分类可以显著增加用户对机器学习模型决策的理解。根据研究结果,提出为未来的事后解释方法提供增加可理解性和可预测性的设计建议。
Sep, 2023
本文提出了基于贝叶斯框架的黑盒模型解释方法,能够生成可靠的局部解释和其关联的不确定性,并且具有稳定性和高度一致性,可以快速地解决几个重要问题。通过实证研究,证明了该方法的有效性,并提高了解释的可靠性。
Aug, 2020
研究黑盒机器学习模型的解释方法,提出一种基于中心极限定理的假设测试框架方法,名为 S-LIME,以保证解释结果的稳定性,实验结果在模拟和真实数据集上表明该方法的有效性。
Jun, 2021
通过敌对训练的方法,我们提出了一个生成稳健且高保真黑盒模型解释的新框架,尝试解决现有算法在受到分布偏移时缺乏稳定性和鲁棒性的问题,本文是首次尝试生成对一类有实际意义的敌对扰动具有鲁棒性的后续解释,实验发现我们的方法显著提高了解释的鲁棒性,而不会在原始数据分布上牺牲解释的保真度。
Nov, 2020
本文提出了一种基于中心极限定理的假设检验框架以确定所需扰动点的数量,从而保障解释稳定性的方法 S-LIME,以解决黑箱模型的可解释性问题。对模拟数据集和实际数据集进行的实验表明了该方法的有效性。
Mar, 2022
这篇论文探讨解释的可解释人工智能(XAI)方法,特别是 SHapley 加性解释和局部可解释模型无关解释等两种使用广泛的方法,提出一个框架来解释它们的输出,强调它们的优缺点。
May, 2023
研究了两种流行的机器学习解释技术:基于梯度的 SmoothGrad 方法和一种基于扰动的 LIME 方法,并通过数学推导证明它们在期望上产生相同的解释。通过在合成和真实世界数据集上进行广泛实验验证了理论模型。
Feb, 2021
提出了一种名为 XAI Test 的应用基准评估方法,旨在评估不同水平的信息提供对最终决策的影响,针对现实世界的欺诈检测任务进行了实验,并使用多种统计方法分析了三种热门解释器的影响。
Jan, 2021
这篇论文研究了机器学习技术中局部后解释性方法的不稳定性问题,提出了通过改进确定邻居选取的方法以解决不稳定性问题,同时通过限制邻居生成的扰动范围得到了一种全新的特征归因方法。
Dec, 2023