用概念向量解开神经元表示
我们提出了一种方法,通过将多义性神经元分解为多个单义性的 “虚拟” 神经元,从而解开深度神经网络中的多义性,实现了深度神经网络的解释性。
Apr, 2024
使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言,最近的解释性方法提议采用基于概念的解释。本文研究了 Concept Activation Vectors (CAVs) 的三个性质,它们可能在不同层次之间存在不一致性,与不同概念纠缠在一起,并具有空间依赖性,这些性质为解释模型提供了挑战和机会。同时,我们还介绍了工具来检测这些性质的存在,并提供洞见以了解它们对解释的影响,并提出减小它们影响的建议。通过理解这些性质,我们可以利用它们的优势。例如,我们引入了具有空间依赖性的 CAVs 来测试模型在特定概念和类别上是否具有平移不变性。我们在 ImageNet 和一个新的合成数据集 Elements 上进行实验。Elements 旨在捕捉概念与类别之间已知的真实关系。我们发布此数据集以促进对解释性方法的进一步研究和评估。
Apr, 2024
本研究通过研究分段线性激活函数将激活空间分为许多离散的多面体的方式,提出了新的解释神经网络的方法,并在卷积图像分类器和语言模型上进行了实验,揭示了有关神经网络行为的具体预测
Nov, 2022
本文通过应用神经科学和信息论中的工具,提出了一种新的实用方法和理论观点,用于解释神经网络的可解释性和多语义性,研究网络代码的冗余水平,并展示了随机投影如何揭示网络代码的可解释性。同时,文中还解释了多语义神经元对学习性能的优势,并对最近 Elhage 等人的研究结果提出了解释,并推进了神经网络可解释性的探索,为其底层结构提供了洞见,提供了新的电路级可解释性途径。
Jan, 2024
通过将神经元嵌入语义空间来提取它们内在的全局语义,提出了一种新的可解释神经网络方法。神经元的激活相似性和语义向量相似性被不断对齐来优化语义向量,可视化语义向量可以定性地解释神经网络的工作机制,并经过了定量的知识蒸馏任务的实验验证,表明提出的静态知识蒸馏方法表现出了可比或甚至优于现有的基于关系的知识蒸馏方法。
Nov, 2022
本文提出了一种三倍增的方法来进行无监督的多义词建模,其中使用低秩子空间来表示包含目标单词的句子,通过对表示的格拉斯曼几何进行聚类算法对目标单词的不同义项进行消歧辨别,最后基于英文维基百科语料库得出了多个词和词义对的表示,这些算法在标准意义识别和消歧辨别数据集上带来了新的最佳成果。
Oct, 2016
在人工智能领域,学习并拥有类人类的智能需要处理认知的本质概念和生成这些概念的新的组合的能力,本文研究了这两种能力之间的关系,并发现基于向量的表示方法可以提高这两种能力,此观察结果与神经科学研究一致,为实现类人智能迈出了重要一步。
May, 2023