解释能否解释？模型最懂

CVPRMar, 2022

Do Explanations Explain? Model Knows Best

Ashkan Khakzar, Pedram Khorsandi, Rozhin Nobahari, Nassir Navab

TL;DR提出了一种通过神经网络模型本身来评估特征归因方法的框架，使用神经网络生成关键特征来评估各种归因方法的一致性和局限性。

Abstract

It is a mystery which input features contribute to a neural network's output. Various explanation (feature attribution) methods are propos

neural network explanation methods feature attribution axiomatic evaluation input features

发现论文，激发创造

神经网络特征评估中的不一致问题探究

近年来，神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而，理解这些黑盒模型的内部机制仍具挑战性，但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外，通过全面的模拟研究，我们展示了常见缩放和编码技术对解释质量的影响，评估它们在不同效应大小中的功效，并展示了基于排序的评估指标的不一致性的来源。

Apr, 2024

如何验证事后解释方法？你能信赖解释吗？

为了让人工智能系统得到广泛的公众认可，我们必须开发能够解释黑匣子模型（如神经网络）决策的方法。

Oct, 2019

评估解释：老师的解释在多大程度上有助于学生？

本文提出了一个框架，通过衡量解释对用于模拟教师模型的学生模型的精确度增益来量化解释的价值，并比较了多种文本分类和问题回答任务的解释方法，观察到了在不同学生模型结构和学习策略中一致的定量差异。

Dec, 2020

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

选择性解释

我们提出了一种选择性解释的特征归因方法，它检测出深度学习模型产生低质量解释的情况，并使用初始猜测解释技术改善这些解释，从而使实践者能够在提供初始猜测的解释之间进行选择，从而弥补了深度学习模型及其高质量对应物之间的差距。

May, 2024

T-Explainer: 基於梯度的模型无关解释性框架

可解释人工智能（Explainable Artificial Intelligence）通过提供准确、一致且稳定的解释，解决机器学习中黑盒模型的透明度问题，其中基于泰勒展开的 T-Explainer 成为了一种有效的特征归因方法。

Apr, 2024

输入特征归因分析的统一框架

机器学习模型的决策过程解释对于确保其可靠性和公平性至关重要。我们提出了一个统一框架，通过四个诊断属性实现了突出和交互式解释的直接比较，并揭示了不同诊断属性方面各解释类型的优势。突出解释对模型预测最为忠实，而交互式解释对于学习模拟模型预测提供了更好的效用，这些认识进一步凸显了未来研究发展结合方法以提高所有诊断属性的需求。

Jun, 2024

统一特征归属和反事实说明：不同的手段达成了相同的目的

通过真实因果关系框架提供一种将特征归因和反事实解释统一的解释方法，通过在 Adult-Income，LendingClub 和 German-Credit 三个基准数据集上的实验，发现 Feature attribution 方法和 counterfactual explanation 方法并不总是一致的，也表明了他们之间的互补性。

Nov, 2020

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的 AI 研究中人类评价的重要性下应该得到重视。

Dec, 2020

从聚类到聚类解释的神经网络方法

提出基于神经网络和聚类模型的可解释 AI 框架，能够对数据的簇分配进行高效和可靠的解释，并且从分析数据和表示中提取新的见解。

Jun, 2019