关于可解释性方法的鲁棒性

ICMLJun, 2018

On the Robustness of Interpretability Methods

David Alvarez-Melis, Tommi S. Jaakkola

TL;DR我们认为解释的稳健性 —— 也就是说，类似的输入应该产生类似的解释 —— 是可解释性的关键因素。我们引入了度量稳健性的指标，并证明了目前的方法在这些指标下表现不佳。最后，我们提出了如何对现有的解释方法强制实施稳健性的方法。

Abstract

We argue that robustness of explanations---i.e., that similar inputs should give rise to similar explanations---is a key desideratum for <

robustness explanations interpretability metrics approaches

发现论文，激发创造

有关模型可解释性的定量方面

本文针对机器学习中可解释性的问题进行了研究，提出了一组度量用于评估不同的可解释性方法，进而解决了目前仅仅依靠定性分析和用户研究来评估不同解释性方法的缺陷。在实验中，通过对不同的基准任务进行验证，并展示如何使用这些度量指导实践者选择最合适的方法，进一步阐述了基准任务、特征提取器和解释性方法之间的概念关系。

Jul, 2020

通过解释不变性和等变性评估可解释性方法的鲁棒性

通过几何深度学习的形式化方法，本文研究了神经网络的对称群不变性及其对解释性方法的影响，提出了对称性相关的鲁棒性指标和提高对称性相关解释的系统方法，并通过实验给出了 5 个可行的指南以产生稳健的解释。

Apr, 2023

深度神经网络的基于梯度的解释方法 —— 鲁棒性解释指南

本文介绍了解释深度神经网络的渐变解释性方法，讨论了这些方法如何评估其鲁棒性以及鲁棒性在产生有意义的解释方面的作用，并探讨了渐变方法的局限性和选择解释方法之前应该考虑的最佳实践和属性。

Jul, 2021

NLP 模型的解释方法稳健性

本文研究了关于文本模态下解释方法的鲁棒性及针对文本解释方法的对抗攻击，结果表明，输入语句及其语义的微小改变可以在很大程度上扰乱解释方法，达到 86% 的成功率。

Jun, 2022

稳健性分析解释的评估和方法

本文提出一种基于鲁棒性分析的特征解释新的评估标准，通过针对我们提出的评估标准进行优化，获得了松散且必要的解释和可以将当前预测移动到目标类的特征集。我们通过多领域实验和用户研究验证了我们评估标准和解释的有用性。

May, 2020

SAM: 归因方法对超参数的敏感性

本文提供了关于现有归因方法敏感性的实证研究结果，发现许多方法对其常见超参数异常敏感，这不仅影响了研究结果的复制性，也会影响最终用户的信任度。同时，现在常见的准确性评估方法并不能完全反映出这种敏感性，并且在对抗像素扰动下训练的健壮分类器提供的解释比常规分类器更加鲁棒。

Mar, 2020

基于特征重要性的视觉解释方法的稳定性，正确性和可信度

在可解释性人工智能领域，本文研究了基于图像分类器特征重要性的解释方法的稳定性、正确性和合理性之间的关系，并指出现有的评估指标并不总是一致的，进而提出了考虑被测模型的局部行为的新型评估指标。

Oct, 2023

评估解释的统一框架

评估可解释性模型的统一框架是该论文的重点，它介绍了各个研究群体对解释性评估的重叠和语义错位，并提出了解释的可行性和可理解性的评估标准，以及基于可解释神经网络的学习行为预测的案例。

May, 2024

衡量可解释性方法质量的解释质量评分

该研究提出了一种新的用于评估解释可能性方法生成的解释质量的度量标准，并利用六种解释可能性方法在三个 NLP 任务上计算和展示了度量标准的结果。

May, 2022

您能相信您的解释吗？特征归因方法的健壮性测试

评估对非敌对扰动的稳健性并分析神经网络和表格数据集上应用的可解释 AI 方法的稳健性，展示如何利用流形假设和集成方法对稳健性进行深入分析。

Jun, 2024