Adversarial TCAV-- 神经网络中间层的稳健有效解释

Feb, 2020

Adversarial TCAV-- 神经网络中间层的稳健有效解释

Adversarial TCAV -- Robust and Effective Interpretation of Intermediate Layers in Neural Networks

Rahul Soni, Naresh Shah, Chua Tat Seng, Jimmy D. Moore

TL;DR对于神经网络决策和中间层所学习的信息的解释仍然是一项挑战，该研究调查了神经网络中间层的概念激活可靠性的提高方法，包括对抗性概念激活向量和 Gram-Schmidt 过程改进，这可以提高其对不同随机种子的收敛性和可回忆性。

Abstract

Interpreting neural network decisions and the information learned in intermediate layers is still a challenge due to the opaque internal state and shared non-linear interactions. Although (Kim et al, 2017) proposed to interpret →

neural networks intermediate layers concept learning robustness effectiveness

发现论文，激发创造

概念激活向量（Concept Activation Vectors）的数量化测试：超越特征归属的可解释性（Interpretability Beyond Feature Attribution）

通过引入概念激活向量 (CAVs) 来解释深度学习模型的内部状态，通过 TCAV 技术使用方向导数量化用户定义的概念对分类结果的重要程度，从而探索研究标准图像分类网络和医学应用。

Nov, 2017

理解概念激活向量：解释可解释性

使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言，最近的解释性方法提议采用基于概念的解释。本文研究了 Concept Activation Vectors (CAVs) 的三个性质，它们可能在不同层次之间存在不一致性，与不同概念纠缠在一起，并具有空间依赖性，这些性质为解释模型提供了挑战和机会。同时，我们还介绍了工具来检测这些性质的存在，并提供洞见以了解它们对解释的影响，并提出减小它们影响的建议。通过理解这些性质，我们可以利用它们的优势。例如，我们引入了具有空间依赖性的 CAVs 来测试模型在特定概念和类别上是否具有平移不变性。我们在 ImageNet 和一个新的合成数据集 Elements 上进行实验。Elements 旨在捕捉概念与类别之间已知的真实关系。我们发布此数据集以促进对解释性方法的进一步研究和评估。

Apr, 2024

探索概念空间贡献：基于空间激活概念向量的隐藏层解释

本文提出了一种基于 TCAV 的新模型 SACV，在定位输入图像中概念区域的基础上，细粒度地解释深度学习模型的预测结果，从而避免了背景特征对模型解释的干扰。

May, 2022

强韧的语义可解释性：重新审视概念激活向量

该研究提出了一种基于 Robust Concept Activation Vectors 的诠释方法，用于评估图像分类模型的可靠性和模型是否存在系统偏差。该方法关注语义概念，如纹理、颜色和性别等，通过梯度上升来评估模型对给定概念的敏感性，并构建了两个基准数据集来评估本方法的实际可用性和科学用途。

Apr, 2021

基于概念激活向量的深度学习皮肤病变分类器可解释性研究

该研究使用了一个经过训练的神经网络，通过激活向量概念来介绍了深度学习的医学图像分类器，以验证模型学习和利用类似于皮肤科医师所描述和使用的疾病相关概念，并且进一步开发 CAV 的神经网络。

May, 2020

概念提炼：利用人类中心解释提升模型性能

我们将 CAVs 从事后分析扩展到事前训练，通过使用额外的概念损失进行微调来减少模型偏差。我们还引入了概念蒸馏，使用预训练的知识模型作为教师来创建更丰富的概念。我们展示了概念敏感训练在去偏、分类问题和重建问题中的应用，可以提高模型的可解释性，减少偏差并引入先验知识。

Nov, 2023

对基于概念可解释性工具的对抗攻击，强调柯基在蜂窝分类中的重要性

该研究证明了基于概念的解释方法的漏洞性能够受到对抗性攻击的影响，需要为机器学习管道和模型解释过程提供安全保障。

Oct, 2021

使用中间概念的深度监督

本文提出一种深度监督方法，通过利用中间概念对 CNN 的隐藏层进行监督，将先前的领域结构融入到神经网络训练中，显著提高了推广能力。该方法还可以仅使用合成场景来训练，并在实际图像上取得了 2D/3D 关键点本地化和图像分类的最新性能。

Jan, 2018

通过对抗鲁棒优化学习可解释的特征

本文提出了一种改进神经网络分类器特征可解释性的方法，将对抗鲁棒性引入模型训练过程，并通过评估真实边界框和可视化方法量化特征可解释性，在 NIH ChestX-ray14 数据集上进行了实验，并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。

May, 2019

通过对抗训练实现可解释的计算机视觉模型：揭示鲁棒性和可解释性的关联

通过对深度神经网络进行对抗训练，研究评估其对模型的鲁棒性和解释性的影响，证明了这两个问题之间的相关性。

Jul, 2023