使用白盒LSTMs评估归因方法

Oct, 2020

Evaluating Attribution Methods using White-Box LSTMs

Yiding Hao

TL;DR提出以白盒网络作为评估标准，评估基于语言任务的LSTM分类器的五种赋值热图产生方法，并发现所有五种方法都无法产生预期的模型解释。

Abstract

interpretability methods for neural networks are difficult to evaluate because we do not understand the black-box models typically used to test them. This paper proposes a framework in which →

发现论文，激发创造

深度神经网络公理归因

本文研究了深度网络输入特征对预测的影响，提出了敏感性和实现不变性两个公理，并指出大部分已知的边缘归因方法并不满足这两个公理。最后，作者设计了一种不需要修改原始网络的全新边缘归因方法——集成梯度，并将其应用于图像、文本和化学模型中。结果表明，该方法不仅具有调试和提取规则的功能，还能够有效地帮助用户更好地使用模型。

Mar, 2017

深度神经网络基于梯度的归因方法的进一步理解

本研究旨在对四种基于梯度的属性方法进行分析，并在图像和文本分类领域的多个数据集上测试这些方法，提出了一种新的评估指标Sensitivity-n，并在改进一些方法后建立了一个统一框架，使这些方法能够进行直接比较和更容易实现。

Nov, 2017

正则化黑盒模型以提高可解释性

ExpO是一种可解释的混合方法，通过训练时对特定正则化器进行操作，改善了基于后处理的解释系统的缺陷，提高了其解释质量和可用性。

Feb, 2019

诠释解释：按标准整理归因方法

该研究拓展了深度学习可解释性领域的基础，引入了必要性、充分性和比例概念等新的度量方法研究输入归因，以便比较不同方法和解释结果。研究评估了用于图像分类的不同CNN解释方法在必要性和充分性方面的表现。

Feb, 2020

利用归因使神经网络可解释化：应用于隐式信号预测

本文提出了一种新型的可解释深度神经网络的解释，通过使用掩蔽权重，可以将隐藏特征分解成几个输入限制的子网络，并训练成专家混合的增强模型，为复杂的机器学习模型提供说明，提高其效率，并实现了对合理解释进行推荐任务。

Aug, 2020

探究归因方法的改进

本文提出三种新的评估方案来衡量影响深度神经网络决策的图像区域，以及平衡各种评估方法之间的比较，并提出一个后处理平滑步骤来改善一些归因方法的性能。

May, 2022

可验证特征归因：后解释性与内在可解释性之间的桥梁

通过VerT方法，将黑盒模型转化为生成可信且可验证特征归因的模型，从而弥合了先前研究中的解释策略差距。

Jul, 2023

评估特征归因方法的双重视角方法

特征归因方法通过识别相关特征来解释神经网络的预测结果，本研究在“忠实度”范式内提出了两个新视角：可靠性和完备性，分别评估特征是否真正预测，以及归因结果是否完整，并基于数学基础提供可计算的定量度量，将这些指标应用于主流归因方法，为分析和比较特征归因方法提供了新视角。

Aug, 2023

黑盒环境下类梯度解释：当黑盒解释变得如白盒一样好

本文介绍了一种以黑盒为基础的梯度估计解释方法，称为GEEX，通过分析梯度来揭示数据驱动方法（如深度学习模型）中做出决策的最重要特征，并将其与路径方法相结合，得到了用于图像数据的iGEEX方法，证明了该方法在黑盒场景中优于现有方法，并有着与完全访问的方法相媲美的性能。

Aug, 2023

通过全局探索增强模型可解释性的局部归因

本研究解决了人工智能模型可解释性不足的问题，提出了一种局部归因（LA）算法，这一算法通过定义局部空间及其属性，采用定向和非定向探索阶段来生成涵盖局部空间的中间状态。实验证明，相较于现有最先进的归因方法，LA算法在归因有效性上平均提高了38.21%。

Aug, 2024