神经网络的以人为本的概念解释

Feb, 2022

Human-Centered Concept Explanations for Neural Networks

Chih-Kuan Yeh, Been Kim, Pradeep Ravikumar

TL;DR该研究论文介绍了基于概念的解释，比如概念激活向量可以有效地描述概念，并讨论了自动提取概念的方法，展示了它们在真实世界应用中的效用。

Abstract

Understanding complex machine learning models such as deep neural networks with explanations is crucial in various applications. Many

machine learning deep neural networks explanations concept-based thinking concept activation vectors

发现论文，激发创造

理解概念激活向量：解释可解释性

使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言，最近的解释性方法提议采用基于概念的解释。本文研究了 Concept Activation Vectors (CAVs) 的三个性质，它们可能在不同层次之间存在不一致性，与不同概念纠缠在一起，并具有空间依赖性，这些性质为解释模型提供了挑战和机会。同时，我们还介绍了工具来检测这些性质的存在，并提供洞见以了解它们对解释的影响，并提出减小它们影响的建议。通过理解这些性质，我们可以利用它们的优势。例如，我们引入了具有空间依赖性的 CAVs 来测试模型在特定概念和类别上是否具有平移不变性。我们在 ImageNet 和一个新的合成数据集 Elements 上进行实验。Elements 旨在捕捉概念与类别之间已知的真实关系。我们发布此数据集以促进对解释性方法的进一步研究和评估。

Apr, 2024

概念激活区域：基于概念的解释的通用框架

本文提出一种新的概念激活区（CAR）的建立方式，通过采用核技巧和支持向量分类器来实现 CAR 的建立，以实现全局的概念解释和局部的概念特征重要性，经实证证明 CAR 可以更准确地描述 DNN 的潜在空间中的概念分布，并且可以用于 DNN 自行学习已知的科学概念，例如前列腺癌分级系统

Sep, 2022

基于概念的模型改进方法综述

最近的研究关注点已经从简单地提高深度神经网络（DNNs）在各种任务中的性能转向了更具人可解释性的 DNNs。人工智能解释性领域已经观察到了包括基于显著性和基于概念的技术。概念是人类可理解的数据单元，是人类思考的基础。本文系统地回顾和分类了 DNNs 中各种概念表示及其发现算法，特别是在视觉领域。同时也提供了关于基于概念的模型改进文献的详细信息，这是第一个调查基于概念的模型改进方法的研究。

Mar, 2024

概念提炼：利用人类中心解释提升模型性能

我们将 CAVs 从事后分析扩展到事前训练，通过使用额外的概念损失进行微调来减少模型偏差。我们还引入了概念蒸馏，使用预训练的知识模型作为教师来创建更丰富的概念。我们展示了概念敏感训练在去偏、分类问题和重建问题中的应用，可以提高模型的可解释性，减少偏差并引入先验知识。

Nov, 2023

自动基于概念的解释

提出了概念解释的原则和求解算法 ACE，能够系统性地通过可视化概念提供对深度神经网络预测的重要性的人类可解释性解释。

Feb, 2019

基于概念的脑电波变压器模型解释能力

应用概念激活向量（CAVs）方法，本研究旨在理解深度学习模型内部状态，进而解释大规模变压器模型中的脑电图（EEG）数据，通过定义解释性概念和选择相关数据集来建立概念在潜在空间中的基础。研究结果表明，外部标记的 EEG 数据集和解剖学定义的概念形成是两种有效的机制。

Jul, 2023

使用非负概念激活向量的卷积神经网络模型可逆基于概念的解释

本文通过提出 invertible concept-based explanation 框架，并进行矩阵分解的性能评估，使用非负矩阵分解提供卓越表现的非负概念激活向量来提供预训练 CNN 模型的局部和全局概念级解释。

Jun, 2020

从神经激活到概念：关于解释神经网络中的概念的调查

综述了最近的方法来解释神经网络中的概念，强调了将学习和推理结合起来的重要性，并探讨了将概念知识插入神经网络架构的可能性，为实现基于可解释概念的神经符号人工智能迈出重要一步。

Oct, 2023

关于在深度神经网络中基于概念的完整性感知解释

本文研究深度神经网络的基于概念的可解释性，提出了一种概念完备性度量和一种概念发现方法来寻找既能够解释模型预测，又易于理解的完备概念集，并提出 ConceptSHAP 方法来为每个概念定义重要性得分，在合成和真实数据集上验证了方法的有效性。

Oct, 2019

将知识表征映射到概念：回顾与新视角

该研究审查了通过提出分类法来将人类可理解的概念与神经网络中的内部表示相对应的研究，并发现了与模型可解释性目标有关的文学研究中的歧义，即是理解机器学习模型还是在部署领域有用的可行解释。

Dec, 2022