理解概念激活向量：解释可解释性

Apr, 2024

理解概念激活向量：解释可解释性

Explaining Explainability: Understanding Concept Activation Vectors

Angus Nicolson, Lisa Schut, J. Alison Noble, Yarin Gal

TL;DR使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言，最近的解释性方法提议采用基于概念的解释。本文研究了 Concept Activation Vectors (CAVs) 的三个性质，它们可能在不同层次之间存在不一致性，与不同概念纠缠在一起，并具有空间依赖性，这些性质为解释模型提供了挑战和机会。同时，我们还介绍了工具来检测这些性质的存在，并提供洞见以了解它们对解释的影响，并提出减小它们影响的建议。通过理解这些性质，我们可以利用它们的优势。例如，我们引入了具有空间依赖性的 CAVs 来测试模型在特定概念和类别上是否具有平移不变性。我们在 ImageNet 和一个新的合成数据集 Elements 上进行实验。Elements 旨在捕捉概念与类别之间已知的真实关系。我们发布此数据集以促进对解释性方法的进一步研究和评估。

Abstract

Recent interpretability methods propose using concept-based explanations to translate the internal representations of deep learning models into a language that humans are familiar with: concepts. This requires understanding which concepts are present in the representation space of a ne

interpretability methods concept activation vectors (cavs)inconsistency between layers entanglement with different concepts spatial dependence

发现论文，激发创造

神经网络的以人为本的概念解释

该研究论文介绍了基于概念的解释，比如概念激活向量可以有效地描述概念，并讨论了自动提取概念的方法，展示了它们在真实世界应用中的效用。

Feb, 2022

概念激活向量（Concept Activation Vectors）的数量化测试：超越特征归属的可解释性（Interpretability Beyond Feature Attribution）

通过引入概念激活向量 (CAVs) 来解释深度学习模型的内部状态，通过 TCAV 技术使用方向导数量化用户定义的概念对分类结果的重要程度，从而探索研究标准图像分类网络和医学应用。

Nov, 2017

基于概念的脑电波变压器模型解释能力

应用概念激活向量（CAVs）方法，本研究旨在理解深度学习模型内部状态，进而解释大规模变压器模型中的脑电图（EEG）数据，通过定义解释性概念和选择相关数据集来建立概念在潜在空间中的基础。研究结果表明，外部标记的 EEG 数据集和解剖学定义的概念形成是两种有效的机制。

Jul, 2023

概念激活区域：基于概念的解释的通用框架

本文提出一种新的概念激活区（CAR）的建立方式，通过采用核技巧和支持向量分类器来实现 CAR 的建立，以实现全局的概念解释和局部的概念特征重要性，经实证证明 CAR 可以更准确地描述 DNN 的潜在空间中的概念分布，并且可以用于 DNN 自行学习已知的科学概念，例如前列腺癌分级系统

Sep, 2022

使用非负概念激活向量的卷积神经网络模型可逆基于概念的解释

本文通过提出 invertible concept-based explanation 框架，并进行矩阵分解的性能评估，使用非负矩阵分解提供卓越表现的非负概念激活向量来提供预训练 CNN 模型的局部和全局概念级解释。

Jun, 2020

探索概念空间贡献：基于空间激活概念向量的隐藏层解释

本文提出了一种基于 TCAV 的新模型 SACV，在定位输入图像中概念区域的基础上，细粒度地解释深度学习模型的预测结果，从而避免了背景特征对模型解释的干扰。

May, 2022

强韧的语义可解释性：重新审视概念激活向量

该研究提出了一种基于 Robust Concept Activation Vectors 的诠释方法，用于评估图像分类模型的可靠性和模型是否存在系统偏差。该方法关注语义概念，如纹理、颜色和性别等，通过梯度上升来评估模型对给定概念的敏感性，并构建了两个基准数据集来评估本方法的实际可用性和科学用途。

Apr, 2021

通过潜在空间分解揭示独特的概念向量

该论文提出一种后期无监督方法，通过分解和聚类方法，自动发现深度学习模型中的概念向量，从而支持可解释性分析，可以成功鉴别与疏离数据有关的训练样本

Jul, 2023

概念提炼：利用人类中心解释提升模型性能

我们将 CAVs 从事后分析扩展到事前训练，通过使用额外的概念损失进行微调来减少模型偏差。我们还引入了概念蒸馏，使用预训练的知识模型作为教师来创建更丰富的概念。我们展示了概念敏感训练在去偏、分类问题和重建问题中的应用，可以提高模型的可解释性，减少偏差并引入先验知识。

Nov, 2023

PatClArC：使用模式概念激活向量进行噪声鲁棒性模型调试

本文介绍了一种名为 PCAV 的模式概念激活向量，用于在潜在空间中实现噪声鲁棒的概念表示，并证明了基于模式的人工建模对 CAVs 的应用具有有益的影响。

Feb, 2022