Adversarial TCAV-- 神经网络中间层的稳健有效解释
通过引入概念激活向量 (CAVs) 来解释深度学习模型的内部状态,通过 TCAV 技术使用方向导数量化用户定义的概念对分类结果的重要程度,从而探索研究标准图像分类网络和医学应用。
Nov, 2017
使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言,最近的解释性方法提议采用基于概念的解释。本文研究了 Concept Activation Vectors (CAVs) 的三个性质,它们可能在不同层次之间存在不一致性,与不同概念纠缠在一起,并具有空间依赖性,这些性质为解释模型提供了挑战和机会。同时,我们还介绍了工具来检测这些性质的存在,并提供洞见以了解它们对解释的影响,并提出减小它们影响的建议。通过理解这些性质,我们可以利用它们的优势。例如,我们引入了具有空间依赖性的 CAVs 来测试模型在特定概念和类别上是否具有平移不变性。我们在 ImageNet 和一个新的合成数据集 Elements 上进行实验。Elements 旨在捕捉概念与类别之间已知的真实关系。我们发布此数据集以促进对解释性方法的进一步研究和评估。
Apr, 2024
本文提出了一种基于 TCAV 的新模型 SACV,在定位输入图像中概念区域的基础上,细粒度地解释深度学习模型的预测结果,从而避免了背景特征对模型解释的干扰。
May, 2022
该研究提出了一种基于 Robust Concept Activation Vectors 的诠释方法,用于评估图像分类模型的可靠性和模型是否存在系统偏差。该方法关注语义概念,如纹理、颜色和性别等,通过梯度上升来评估模型对给定概念的敏感性,并构建了两个基准数据集来评估本方法的实际可用性和科学用途。
Apr, 2021
该研究使用了一个经过训练的神经网络,通过激活向量概念来介绍了深度学习的医学图像分类器,以验证模型学习和利用类似于皮肤科医师所描述和使用的疾病相关概念,并且进一步开发 CAV 的神经网络。
May, 2020
我们将 CAVs 从事后分析扩展到事前训练,通过使用额外的概念损失进行微调来减少模型偏差。我们还引入了概念蒸馏,使用预训练的知识模型作为教师来创建更丰富的概念。我们展示了概念敏感训练在去偏、分类问题和重建问题中的应用,可以提高模型的可解释性,减少偏差并引入先验知识。
Nov, 2023
本文提出一种深度监督方法,通过利用中间概念对 CNN 的隐藏层进行监督,将先前的领域结构融入到神经网络训练中,显著提高了推广能力。该方法还可以仅使用合成场景来训练,并在实际图像上取得了 2D/3D 关键点本地化和图像分类的最新性能。
Jan, 2018
本文提出了一种改进神经网络分类器特征可解释性的方法,将对抗鲁棒性引入模型训练过程,并通过评估真实边界框和可视化方法量化特征可解释性,在 NIH ChestX-ray14 数据集上进行了实验,并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。
May, 2019