采用公理归因先验及期望梯度提升深度学习模型性能
本文研究了深度网络输入特征对预测的影响,提出了敏感性和实现不变性两个公理,并指出大部分已知的边缘归因方法并不满足这两个公理。最后,作者设计了一种不需要修改原始网络的全新边缘归因方法——集成梯度,并将其应用于图像、文本和化学模型中。结果表明,该方法不仅具有调试和提取规则的功能,还能够有效地帮助用户更好地使用模型。
Mar, 2017
该研究提出一种名称为FAR的新型范式,用于通过在输入的局部领域内最小化属性映射的最大差异来训练模型的鲁棒属性。通过新模型AAT和AdvAAT的实验表明,所提出的方法在对抗干扰下都更有稳健性。
Oct, 2020
探索透视医学影像分类应用的影响映射方法和度量评估,提出EvalAttAI度量已有度量的局限并进行改进,结果显示:使用Vanilla Gradient方法的贝叶斯深度神经网络通常更具可解释性。
Mar, 2023
本文提供了两种流行的解释方法(Occlusion 和 Shapley 值)的模型无关实现,以无限制的交互方式实现不同的属性。利用已纠正的特征归属来生成额外的本地数据,通过在模拟和真实数据实验中展示我们提出的方法如何通过纠正的解释显著提高模型的性能。添加交互式解释以增加活动学习效率,显著优于现有的解释性交互策略。此外,本文探讨了领域专家如何提供足够正确的特征归属来改进模型。
Jun, 2023
本研究旨在检验特征归因法在不同深度学习架构模型间的泛化能力,以及探索归一化的特征解释方法在提高机器学习应用的可解释性和信任度方面的潜力。
Jul, 2023
通过分析从基于提示的模型中提取的归因得分的合理性和忠实性,并将其与从微调模型和大型语言模型中提取的归因得分进行比较,我们发现使用基于提示的范例(无论是基于编码器的模型还是解码器的模型)比在低资源环境下微调模型产生更合理的解释,并且Shapley Value Sampling在产生更合理和忠实的解释方面始终优于注意力和积分梯度。
Mar, 2024
解释性人工智能的研究领域试图开发提供复杂机器学习方法如何进行预测的见解的方法。在这项工作中,我们探讨了高斯过程回归(GPR)背景下的特征归因问题,并在现有文献的基础上以原则性的方法定义了特征归因。我们展示了尽管GPR是一种高度灵活的非参数方法,但我们可以导出解释性的闭式表达式用于特征归因。使用Integrated Gradients作为归因方法时,我们表明GPR模型的归因也符合高斯过程分布,从而量化了由于模型的不确定性而产生的归因的不确定性。我们通过理论和实验证明了这种方法的多功能性和稳健性。我们还表明,在适用的情况下,GPR归因的精确表达式比目前在实践中使用的近似方法更准确且计算成本更低。
Mar, 2024
该论文旨在通过将不同方法或其变种的多个解释结合起来,系统地提高特征归因的质量,从而改进理解和验证复杂的机器学习模型的预测,该组合策略在多个模型架构和流行的特征归因技术中始终优于个别方法和现有基准。
Jun, 2024