通过潜在空间分解揭示独特的概念向量
使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言,最近的解释性方法提议采用基于概念的解释。本文研究了 Concept Activation Vectors (CAVs) 的三个性质,它们可能在不同层次之间存在不一致性,与不同概念纠缠在一起,并具有空间依赖性,这些性质为解释模型提供了挑战和机会。同时,我们还介绍了工具来检测这些性质的存在,并提供洞见以了解它们对解释的影响,并提出减小它们影响的建议。通过理解这些性质,我们可以利用它们的优势。例如,我们引入了具有空间依赖性的 CAVs 来测试模型在特定概念和类别上是否具有平移不变性。我们在 ImageNet 和一个新的合成数据集 Elements 上进行实验。Elements 旨在捕捉概念与类别之间已知的真实关系。我们发布此数据集以促进对解释性方法的进一步研究和评估。
Apr, 2024
本文提出了一种无监督的后期方法,通过查找解释稀疏的一个阈值转换表示的像素激活的特征空间旋转来提取可解释的基础,并在现有流行的 CNNs 上进行实验,证明了本方法提取可解释基础的有效性。此外,通过基础可解释性度量,将中间层表示转换为我们方法提取的基础,从而使中间层表示更具可解释性。最后,我们将提取的基础与监督方法提取的基础进行比较,并发现无监督方法具有优势,为未来的研究提供了潜在方向。
Mar, 2023
提出了一种新的方法来获得生成模型中已知或新的高级概念的显著性图,即概念显著性图,对于深度学习中的潜在变量模型提高了解释性。该方法被应用于 CelebA 数据集的 VAE 潜在空间中和小鼠嗅球的空间转录组数据中,证明了其在高级概念的解释和复杂生物系统理解中的潜力。
Oct, 2019
本文介绍了一种新的方法,针对生成对抗网络(GAN)中的潜在空间建立无限制的基元视觉概念词汇表,该方法通过三个组件实现:(1) 基于层选择自动识别知觉显著方向;(2) 人工注释这些方向以自由形式的组成自然语言描述,以及 (3) 将这些注释分解为视觉概念词汇表,由单词标记的精简方向组成。实验表明,使用我们的方法学习的概念是可靠和可组合的 - 概念可以跨越类别、上下文和观察者进行概括,并且可以实现对图像风格和内容的精细操作。
Oct, 2021
提出了一种名为 GCPV(local-to-global Guided Concept Projection Vectors)的方法,该方法通过生成局部概念向量并将其推广为全局概念向量,来解决计算机视觉卷积深度神经网络(CNN)的可解释性和调试问题。该方法在目标检测方面表现出改进的性能,并且对于低质量的概念分割标签也具有鲁棒性。通过 GCPVs,能够找到造成概念混淆的根本原因,揭示有趣的概念级别异常值,为模型调试和数据优化提供了有希望的方法。
Nov, 2023
研究为了实现模型机制性可解释性,提出了一种方法将多义神经元解离成概念向量来达到单一概念的表征,该方法可以根据用户所需的概念级别寻找精细的概念,分析显示多义神经元可以分解成神经元的线性组合的方向,评估表明找到的概念向量编码了连贯的人类可理解的特征。
Apr, 2023
该研究提出可识别地探索嵌入空间的概念,是在没有人类标签的情况下,通过搜索训练的嵌入空间中可解释的概念,比如物体的形状或颜色来提供后续的决策解释。通过展示 PCA 和 ICA 能够恢复非高斯分布的独立概念,再提出两种基于图像生成模型可组合性的方法来恢复相关概念,该研究提供了没有人类标签可靠概念发现的坚实基础。
Jun, 2022
本研究通过使用干预机制,利用离散变分自编码器来转移预测类别,进而可视化任何隐藏层的编码信息和对应的被干预表示来揭示深度神经网络的隐含概念,并通过评估原始表示与被干预表示之间的差异来确定可改变类别的概念,从而提高模型的可解释性。我们在 CelebA 数据集上展示了我们方法的有效性,并展示了有偏差数据的各种可视化并提供不同的干预方法来揭示和更正偏见。
Dec, 2021
本文提出利用大型视觉 - 语言模型和本体学习分解视觉概念,进而生成一棵具有层次分明的树形结构的视觉概念。在该树的每个节点,我们使用预先训练的文本 - 图像模型的潜在空间中注入学习嵌入向量来表示每一个子概念,以及一系列正则化方法来指导节点内嵌入向量的优化。该方法允许用户探索和发现从原概念中衍生出的新概念,并可以将每个节点中学到的概念因素组合起来创造新的视觉创意,在自然语言句子中应用这些概念因素来实现新设计。
May, 2023
本文提出一个基于变分推理的方法,从大量未标记的观察中推断分离的潜在因素,通过对所观察数据的近似后验期望引入正则化项,从而鼓励分离;同时,提出了一种新的分离度量,与解码器输出中观察到的定性分离更加一致,经实验证明,在分离度和数据似然(重建质量)方面存在显著的改进。
Nov, 2017