本研究旨在对四种基于梯度的属性方法进行分析,并在图像和文本分类领域的多个数据集上测试这些方法,提出了一种新的评估指标Sensitivity-n,并在改进一些方法后建立了一个统一框架,使这些方法能够进行直接比较和更容易实现。
Nov, 2017
该研究拓展了深度学习可解释性领域的基础,引入了必要性、充分性和比例概念等新的度量方法研究输入归因,以便比较不同方法和解释结果。研究评估了用于图像分类的不同CNN解释方法在必要性和充分性方面的表现。
Feb, 2020
该研究提出一种名称为FAR的新型范式,用于通过在输入的局部领域内最小化属性映射的最大差异来训练模型的鲁棒属性。通过新模型AAT和AdvAAT的实验表明,所提出的方法在对抗干扰下都更有稳健性。
Oct, 2020
本文提出了一种新的训练特征归因方法,通过结合显著性图和实例归因方法,可以有效地发现训练数据中的人工瑕疵,并在实验中取得了良好的结果。
Jul, 2021
本文提出了用于自然语言处理模型的新型基于梯度的特征暗示方法(Locally Aggregated Feature Attribution,LAFA),通过汇集从语言模型嵌入推导出的类似参考文本来平滑梯度,以实现对模型的解释性。该方法在公共数据集上进行了实验,包括实体识别和情感分析以及在构建的Amazon目录数据集上对重要特征的检测。通过实验,证明了该方法的优越性能。
Apr, 2022
本文提出三种新的评估方案来衡量影响深度神经网络决策的图像区域,以及平衡各种评估方法之间的比较,并提出一个后处理平滑步骤来改善一些归因方法的性能。
May, 2022
特征归因方法通过识别相关特征来解释神经网络的预测结果,本研究在“忠实度”范式内提出了两个新视角:可靠性和完备性,分别评估特征是否真正预测,以及归因结果是否完整,并基于数学基础提供可计算的定量度量,将这些指标应用于主流归因方法,为分析和比较特征归因方法提供了新视角。
Aug, 2023
近年来,神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而,理解这些黑盒模型的内部机制仍具挑战性,但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外,通过全面的模拟研究,我们展示了常见缩放和编码技术对解释质量的影响,评估它们在不同效应大小中的功效,并展示了基于排序的评估指标的不一致性的来源。
Apr, 2024
该论文旨在通过将不同方法或其变种的多个解释结合起来,系统地提高特征归因的质量,从而改进理解和验证复杂的机器学习模型的预测,该组合策略在多个模型架构和流行的特征归因技术中始终优于个别方法和现有基准。
Jun, 2024
通过提出一种新的评估协议,我们评估了23种归因方法以及8种不同的视觉模型设计选择如何影响归因质量,发现内在可解释性模型优于标准模型,并且原始的归因值展现出更高的质量。此外,在改变网络设计时,归因质量也出现了一致性变化,表明一些标准设计选择促进了归因质量。
Jul, 2024