使用白盒LSTMs评估归因方法
本文研究了深度网络输入特征对预测的影响,提出了敏感性和实现不变性两个公理,并指出大部分已知的边缘归因方法并不满足这两个公理。最后,作者设计了一种不需要修改原始网络的全新边缘归因方法——集成梯度,并将其应用于图像、文本和化学模型中。结果表明,该方法不仅具有调试和提取规则的功能,还能够有效地帮助用户更好地使用模型。
Mar, 2017
本研究旨在对四种基于梯度的属性方法进行分析,并在图像和文本分类领域的多个数据集上测试这些方法,提出了一种新的评估指标Sensitivity-n,并在改进一些方法后建立了一个统一框架,使这些方法能够进行直接比较和更容易实现。
Nov, 2017
该研究拓展了深度学习可解释性领域的基础,引入了必要性、充分性和比例概念等新的度量方法研究输入归因,以便比较不同方法和解释结果。研究评估了用于图像分类的不同CNN解释方法在必要性和充分性方面的表现。
Feb, 2020
本文提出了一种新型的可解释深度神经网络的解释,通过使用掩蔽权重,可以将隐藏特征分解成几个输入限制的子网络,并训练成专家混合的增强模型,为复杂的机器学习模型提供说明,提高其效率,并实现了对合理解释进行推荐任务。
Aug, 2020
特征归因方法通过识别相关特征来解释神经网络的预测结果,本研究在“忠实度”范式内提出了两个新视角:可靠性和完备性,分别评估特征是否真正预测,以及归因结果是否完整,并基于数学基础提供可计算的定量度量,将这些指标应用于主流归因方法,为分析和比较特征归因方法提供了新视角。
Aug, 2023
本文介绍了一种以黑盒为基础的梯度估计解释方法,称为GEEX,通过分析梯度来揭示数据驱动方法(如深度学习模型)中做出决策的最重要特征,并将其与路径方法相结合,得到了用于图像数据的iGEEX方法,证明了该方法在黑盒场景中优于现有方法,并有着与完全访问的方法相媲美的性能。
Aug, 2023
本研究解决了人工智能模型可解释性不足的问题,提出了一种局部归因(LA)算法,这一算法通过定义局部空间及其属性,采用定向和非定向探索阶段来生成涵盖局部空间的中间状态。实验证明,相较于现有最先进的归因方法,LA算法在归因有效性上平均提高了38.21%。
Aug, 2024