通过语义匹配修正特征归因方法中的确认偏差

Jul, 2023

通过语义匹配修正特征归因方法中的确认偏差

Fixing confirmation bias in feature attribution methods via semantic match

Giovanni Cinà, Daniel Fernandez-Llaneza, Nishant Mishra, Tabea E. Röber, Sandro Pezzelle...

TL;DR本文介绍了解决黑盒模型中 feature attribution 方法的一个严重问题 —— 在人类概念下的可靠解释性问题，提出了一种基于语义匹配的结构化方法来评估模型的可解释性，并在实验中得出了关于评估语义匹配的指标和结果，旨在解决 XAI 领域中的确认偏误问题。

Abstract

feature attribution methods have become a staple method to disentangle the complex behavior of black box models. Despite their success, some scholars have argued that such methods suffer from a serious flaw: they

feature attribution methods semantic match black box models confirmation bias xai

发现论文，激发创造

语义匹配：针对医疗 XAI 中的特征归因方法进行调试

本文探讨了 Explainable AI 在医疗领域应用的可靠性问题，提出了对于像电子病历这样结构化数据的场景，特征归因方法仍能够发挥有意义且有用的作用。同时，文章对于通过语义匹配来评估特征重要性的方法提供了一个简单的流程。

Jan, 2023

神经网络特征评估中的不一致问题探究

近年来，神经网络展示出了从原始数据中识别复杂模式和关系的卓越能力。然而，理解这些黑盒模型的内部机制仍具挑战性，但对于高风险决策至关重要。我们的研究通过调查解释的基本和分布行为来解决这种困惑。此外，通过全面的模拟研究，我们展示了常见缩放和编码技术对解释质量的影响，评估它们在不同效应大小中的功效，并展示了基于排序的评估指标的不一致性的来源。

Apr, 2024

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021

可验证特征归因：后解释性与内在可解释性之间的桥梁

通过 VerT 方法，将黑盒模型转化为生成可信且可验证特征归因的模型，从而弥合了先前研究中的解释策略差距。

Jul, 2023

强韧的语义可解释性：重新审视概念激活向量

该研究提出了一种基于 Robust Concept Activation Vectors 的诠释方法，用于评估图像分类模型的可靠性和模型是否存在系统偏差。该方法关注语义概念，如纹理、颜色和性别等，通过梯度上升来评估模型对给定概念的敏感性，并构建了两个基准数据集来评估本方法的实际可用性和科学用途。

Apr, 2021

挑战功能归因解释中的常见可解释性假设

通过人类实验，我们发现属性解释法在某些情况下会导致决策者做出更糟糕的决策，这一结果挑战了应用这些方法的普遍好处的假定，在可解释的 AI 研究中人类评价的重要性下应该得到重视。

Dec, 2020

特征归属方法的效果及其与自动评估得分的相关性

本研究第一次进行用户研究来证明特征归因图对于 ImageNet 分类和 Stanford Dogs 细粒度分类的辅助作用，在更难的分类任务上，特征归因图并没有帮助，相反会降低人工智能和人类团队的性能，并且自动特征归因图评估指标与实际人工智能 - 人类团队的表现相关性较差，本研究提倡社区在人机互动的应用中对他们的方法进行严格的测试，并重新思考现有的评估指标。

May, 2021

通过投注测试语义重要性：我敢打赌你并不是那个意思

我们的研究通过使用特征重要性、语义概念和条件独立性来形式化黑盒预测模型对于全局和局部统计重要性的定义，并通过顺序核化测试的方法对概念进行排序，从而在真实场景中提供了有效性和灵活性的框架。

May, 2024

我不能预测的，我就不理解：一个以人为中心的可解释性方法评估框架

本研究通过心理物理实验评估了 AI 系统的说明方法的人类使用者的理解能力，并发现不同的场景对于提高人类理解 AI 系统的说明方法的效果存在较大的差异，因此需要开发提供定性信息的补充方法。

Dec, 2021

自动基于概念的解释

提出了概念解释的原则和求解算法 ACE，能够系统性地通过可视化概念提供对深度神经网络预测的重要性的人类可解释性解释。

Feb, 2019