探索者头部: 大规模模型与数据的广义特征归因

Feb, 2024

探索者头部: 大规模模型与数据的广义特征归因

Prospector Heads: Generalized Feature Attribution for Large Models & Data

Gautam Machiraju, Alexander Derry, Arjun Desai, Neel Guha, Amir-Hossein Karimi...

TL;DR提出了一种有效且可解释的特征归属方法prospectors heads，能够推广到序列、图像和图谱数据领域，并在特征定位上具有优越性能，提供了一个改善复杂领域机器学习模型信任和透明度的框架。

Abstract

feature attribution, the ability to localize regions of the input data that are relevant for classification, is an important capability for machine learning models in scientific and biomedical domains. Current me

发现论文，激发创造

走向严格解释：特征归因的形式化

本文提出了一种基于放松的功能依赖概念的特征选择/归因的正式化方法，通过在合成数据集上计算基本真实的归因，评估了许多最先进的归因方法，并展示了即使在优化时，某些归因方法也无法验证所提出的属性并提供错误的解决方案。

Apr, 2021

数据集广泛XAI的软件：从本地解释到全局洞见，使用Zennit，CoRelAy和ViRelAy

本研究介绍了三个面向科学家的软件包，以利用归因方法和其他方法探索模型的推理方式，提供解释人工智能的标准化实现方案。

Jun, 2021

使用归因图进行模型训练

本文研究表明利用归因映射来训练神经网络能够提高模型的正则化从而提高性能，并介绍了一种名为Challenger的模块，该模块利用输入模式的解释能力来操纵重要的输入模式，从而提高模型性能。

May, 2022

不要被蒙蔽：说明方法中的标签泄漏及其定量评估的重要性

本文介绍了共有十种feature attribution方法，其中七种是class-dependent方法，三种为distribution-aware方法，并在三个临床数据集上对其进行了评估，提出SHAP-KL和FastSHAP-KL两种分布感知的方法，计算Shapley值。

Feb, 2023

可验证特征归因：后解释性与内在可解释性之间的桥梁

通过VerT方法，将黑盒模型转化为生成可信且可验证特征归因的模型，从而弥合了先前研究中的解释策略差距。

Jul, 2023

一种全面可靠的特征归因方法：双侧去除重构（DoRaR）

通过改进方法，我们引入了一种名为DoRaR的特征归属方法，解决了透明度受限、黑盒模型等困扰，通过对MNIST、CIFAR10和自行合成的数据集的全面测试，证明了DoRaR特征归属方法能有效绕过上述问题，并有助于训练优于其他最先进特征归属方法的特征选择器。

Oct, 2023

图像数据归因的简单有效基础线

数据归因是理解机器学习模型的关键方法之一，我们提出了一种基于自监督学习预训练的最小化基线方法，对图像数据进行归因，这种方法计算成本低、内存占用少、易于扩展，且在CIFAR-10和ImageNet上实现了与现有方法相媲美甚至更好的性能。

Nov, 2023

高斯过程的可解释学习

解释性人工智能的研究领域试图开发提供复杂机器学习方法如何进行预测的见解的方法。在这项工作中，我们探讨了高斯过程回归（GPR）背景下的特征归因问题，并在现有文献的基础上以原则性的方法定义了特征归因。我们展示了尽管GPR是一种高度灵活的非参数方法，但我们可以导出解释性的闭式表达式用于特征归因。使用Integrated Gradients作为归因方法时，我们表明GPR模型的归因也符合高斯过程分布，从而量化了由于模型的不确定性而产生的归因的不确定性。我们通过理论和实验证明了这种方法的多功能性和稳健性。我们还表明，在适用的情况下，GPR归因的精确表达式比目前在实践中使用的近似方法更准确且计算成本更低。

Mar, 2024

通过优化特征归因的聚合来提供可证明更好的解释

该论文旨在通过将不同方法或其变种的多个解释结合起来，系统地提高特征归因的质量，从而改进理解和验证复杂的机器学习模型的预测，该组合策略在多个模型架构和流行的特征归因技术中始终优于个别方法和现有基准。

Jun, 2024

输入特征归因分析的统一框架

机器学习模型的决策过程解释对于确保其可靠性和公平性至关重要。我们提出了一个统一框架，通过四个诊断属性实现了突出和交互式解释的直接比较，并揭示了不同诊断属性方面各解释类型的优势。突出解释对模型预测最为忠实，而交互式解释对于学习模拟模型预测提供了更好的效用，这些认识进一步凸显了未来研究发展结合方法以提高所有诊断属性的需求。

Jun, 2024