概念提炼：利用人类中心解释提升模型性能

Nov, 2023

概念提炼：利用人类中心解释提升模型性能

Concept Distillation: Leveraging Human-Centered Explanations for Model Improvement

Avani Gupta, Saurabh Saini, P J Narayanan

TL;DR我们将 CAVs 从事后分析扩展到事前训练，通过使用额外的概念损失进行微调来减少模型偏差。我们还引入了概念蒸馏，使用预训练的知识模型作为教师来创建更丰富的概念。我们展示了概念敏感训练在去偏、分类问题和重建问题中的应用，可以提高模型的可解释性，减少偏差并引入先验知识。

Abstract

Humans use abstract concepts for understanding instead of hard features. Recent interpretability research has focused on human-centered concept explanations of neural networks. Concept Activation Vectors (CAVs) e

abstract concepts interpretability research concept activation vectors (cavs)model bias concept distillation

发现论文，激发创造

ConceptDistil: 概念解释的模型无关蒸馏

ConceptDistil 是一种基于知识蒸馏的方法，旨在为任何黑盒分类器提供概念解释，在通过两个组件：（1）预测给定实例中存在哪些领域概念的概念模型，（2）通过模仿黑盒模型使用概念模型的预测的蒸馏模型进行分解。在一个真实的用例中验证了 ConceptDistil，显示它能够优化两个任务，为任何黑盒模型提供概念解释能力。

May, 2022

神经网络的以人为本的概念解释

该研究论文介绍了基于概念的解释，比如概念激活向量可以有效地描述概念，并讨论了自动提取概念的方法，展示了它们在真实世界应用中的效用。

Feb, 2022

理解概念激活向量：解释可解释性

使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言，最近的解释性方法提议采用基于概念的解释。本文研究了 Concept Activation Vectors (CAVs) 的三个性质，它们可能在不同层次之间存在不一致性，与不同概念纠缠在一起，并具有空间依赖性，这些性质为解释模型提供了挑战和机会。同时，我们还介绍了工具来检测这些性质的存在，并提供洞见以了解它们对解释的影响，并提出减小它们影响的建议。通过理解这些性质，我们可以利用它们的优势。例如，我们引入了具有空间依赖性的 CAVs 来测试模型在特定概念和类别上是否具有平移不变性。我们在 ImageNet 和一个新的合成数据集 Elements 上进行实验。Elements 旨在捕捉概念与类别之间已知的真实关系。我们发布此数据集以促进对解释性方法的进一步研究和评估。

Apr, 2024

通过引导概念学习实现可理解的卷积神经网络

该论文提出了一种带有附加概念层的 CNN 架构的引导学习方法，用于学习视觉特征和单词短语之间的关联，并通过优化预测准确性和特征表示的语义来学习与人类感知一致的概念，实验结果表明，所提出的模型可以在不牺牲准确性的情况下学习一致于人类感知的概念，并可将这些学习到的概念转移到具有相似概念的新对象类别中。

Jan, 2021

基于概念的脑电波变压器模型解释能力

应用概念激活向量（CAVs）方法，本研究旨在理解深度学习模型内部状态，进而解释大规模变压器模型中的脑电图（EEG）数据，通过定义解释性概念和选择相关数据集来建立概念在潜在空间中的基础。研究结果表明，外部标记的 EEG 数据集和解剖学定义的概念形成是两种有效的机制。

Jul, 2023

基于概念的模型改进方法综述

最近的研究关注点已经从简单地提高深度神经网络（DNNs）在各种任务中的性能转向了更具人可解释性的 DNNs。人工智能解释性领域已经观察到了包括基于显著性和基于概念的技术。概念是人类可理解的数据单元，是人类思考的基础。本文系统地回顾和分类了 DNNs 中各种概念表示及其发现算法，特别是在视觉领域。同时也提供了关于基于概念的模型改进文献的详细信息，这是第一个调查基于概念的模型改进方法的研究。

Mar, 2024

通过概念学习先验可解释模型的框架

本文提出一种将解释生成模块附加在基础网络之上、共同训练整个模块的自我解释深度学习模型，适用于无监督概念学习，能够生成有关概念的有意义的解释，并且在概念监督方面有一定的可塑性，具有更好的性能表现。通过在多个数据集上的实验，证明该模型比最近提出的基于概念解释的模型表现更好。

Aug, 2021

一个自说明的神经架构用于可推广的概念学习

利用自我解释的架构跨领域进行概念学习，提出新的概念显著网络、对比学习和基于原型的概念基准规范化方法来解决概念一致性和泛化能力的问题，并在四个实际数据集上展示了方法的有效性。

May, 2024

概念激活向量（Concept Activation Vectors）的数量化测试：超越特征归属的可解释性（Interpretability Beyond Feature Attribution）

通过引入概念激活向量 (CAVs) 来解释深度学习模型的内部状态，通过 TCAV 技术使用方向导数量化用户定义的概念对分类结果的重要程度，从而探索研究标准图像分类网络和医学应用。

Nov, 2017

使用非负概念激活向量和决策树进行基于概念的卷积神经网络模型解释

本文通过基于概念提取的解释器训练决策树，以增加 CNN 模型的可解释性并提高解释器的保真度和性能。研究表明，Tree-ICE 在可解释性方面胜过基准，并生成更易读的模式解释。

Nov, 2022