- 利用语义视觉先验解释视觉和语言生成模型
使用 SHAP 为基础的框架,可以在具有语义先验的视觉背景下提取任意数量的特征,从而可生成高度有意义的视觉解释并达到比传统方法更低的计算成本及更好的语义表达能力。
- 通过解释不变性和等变性评估可解释性方法的鲁棒性
通过几何深度学习的形式化方法,本文研究了神经网络的对称群不变性及其对解释性方法的影响,提出了对称性相关的鲁棒性指标和提高对称性相关解释的系统方法,并通过实验给出了 5 个可行的指南以产生稳健的解释。
- 机器学习模型本地可解释性的真实元解释
本文探讨了如何提高复杂机器学习系统的可解释性,通过介绍采用基于诚实度的指标的局部元解释技术,给出了一个可行的解决方案。
- 嵌入空间中的 Transformer 分析
该研究在理论上分析了训练好的 Transformer 模型参数的映射关系与对应的词向量,在嵌入空间中进行模型参数解释,从而实现在模型特定细节抽象化的前提下进行模型参数解释,进一步提出了参数对齐和分类器构建两种应用。
- 对文本数据进行特征重要性和规则提取的可解释性比较
本文研究机器学习算法中普遍存在的可解释性方法,通过不同的解释方法应用到简单的模型中,发现不同之处并提出一种新的方法来比较不同解释间的差异。
- 几何引导式的整合梯度
本文提出了一种基于深度神经网络模型参数空间局部几何性质的解释性方法 —— 几何引导的积分梯度法,在主观和量化评价方面表现优于传统的积分梯度法和总体梯度法,并提出了 “模型扰动” 的健全性检查,以补充传统的 “模型随机化” 测试。
- 衡量可解释性方法质量的解释质量评分
该研究提出了一种新的用于评估解释可能性方法生成的解释质量的度量标准,并利用六种解释可能性方法在三个 NLP 任务上计算和展示了度量标准的结果。
- ACL从本地解释到模型理解
本论文提出了一种可以量化模型理解的数学框架 Explanation summary(ExSum),并提出了其质量评估的指标,从而使人们更容易、可靠地理解黑盒模型的工作机制。
- 机器学习方法应用于神经影像的可解释性
本篇论文介绍了最常见的解释性方法和评估可靠性的指标,并探讨了它们在神经影像学方面的应用和基准测试。
- XAI for Transformers: 通过保守传递实现更好的解释
本文讨论了使用梯度信息的 Transformer 解释性方法的效果不佳,识别输入特征对预测的贡献不可靠,提出了一种更稳定的方法,该方法可以被视为对 Transformer 的 LRP 方法的适当扩展,通过 Attention Heads 和 - ACL识别和缓解虚假关联,提高自然语言处理模型的鲁棒性
本研究提出了一种方法,利用解释性方法从文本中提取影响模型决策过程的标记,分析模型在多个语料库上的预测并进一步通过知识感知扰动来区分 ' 真正 ' 的标记和 ' 虚假 ' 标记,有效地识别出一组 ' 捷径 ',从而实现在多个应用中的更加鲁棒的 - EMNLP深度自然语言处理中脆弱解释的扰动输入
本文探讨了使用对抗性扰动攻击两种最先进的自然语言处理模型的可解释性方法,结果表明,即使对少量单词进行更改,这些方法也可能变得不稳定和不可信。
- ICML基于梯度的可解释性方法与二值化神经网络
本文比较了应用在二值化神经网络与全精度神经网络的几种常用显著图解释技术(梯度、平滑梯度和 GradCAM)表现的差异,结果发现 SmoothGrad 方法在 BNNs 时产生明显的噪音地图,而 GradCAM 则在网络类型上产生显著的不同, - ICML强韧的语义可解释性:重新审视概念激活向量
该研究提出了一种基于 Robust Concept Activation Vectors 的诠释方法,用于评估图像分类模型的可靠性和模型是否存在系统偏差。该方法关注语义概念,如纹理、颜色和性别等,通过梯度上升来评估模型对给定概念的敏感性,并 - ICMLLIME 在图像中看到了什么?
该论文研究了 LIME 作为解释方法之一在理论上的局限性和与另一解释方法 integrated gradients 的联系,探讨了其在计算机视觉和目标识别领域的应用。
- 文本数据中 LIME 的分析
本文对 LIME 在文本数据上的使用进行了首次理论分析,发现 LIME 能够对简单模型(决策树和线性模型)提供有意义的解释。
- 针对热力图解释的对抗攻击的简单防御
通过多种解释方法的聚合,我们提供了一种有效的方法来防御神经网络上的对抗性攻击,使其对于潜在攻击变得更加稳健。
- 深度神经网络可解释性方法评估基准
本文提出了一种衡量深度神经网络特征重要性估计的近似准确性的经验方法,研究发现,在许多流行的可解释性方法中,只有某些集成方法,如 VarGrad 和 SmoothGrad-Squared,才能胜任随机指定特征重要性的任务。