用概念向量解开神经元表示

Apr, 2023

Disentangling Neuron Representations with Concept Vectors

Laura O'Mahony, Vincent Andrearczyk, Henning Muller, Mara Graziani

TL;DR研究为了实现模型机制性可解释性，提出了一种方法将多义神经元解离成概念向量来达到单一概念的表征，该方法可以根据用户所需的概念级别寻找精细的概念，分析显示多义神经元可以分解成神经元的线性组合的方向，评估表明找到的概念向量编码了连贯的人类可理解的特征。

Abstract

mechanistic interpretability aims to understand how models store representations by breaking down neural networks into interpretable units. However, the occurrence of →

mechanistic interpretability neural networks polysemantic neurons concept vectors feature disentanglement

发现论文，激发创造

PURE: 通过识别相关电路将多义性神经元转化为纯特征

我们提出了一种方法，通过将多义性神经元分解为多个单义性的 “虚拟” 神经元，从而解开深度神经网络中的多义性，实现了深度神经网络的解释性。

Apr, 2024

理解概念激活向量：解释可解释性

使用概念解释将深度学习模型的内部表示转化为人类熟悉的语言，最近的解释性方法提议采用基于概念的解释。本文研究了 Concept Activation Vectors (CAVs) 的三个性质，它们可能在不同层次之间存在不一致性，与不同概念纠缠在一起，并具有空间依赖性，这些性质为解释模型提供了挑战和机会。同时，我们还介绍了工具来检测这些性质的存在，并提供洞见以了解它们对解释的影响，并提出减小它们影响的建议。通过理解这些性质，我们可以利用它们的优势。例如，我们引入了具有空间依赖性的 CAVs 来测试模型在特定概念和类别上是否具有平移不变性。我们在 ImageNet 和一个新的合成数据集 Elements 上进行实验。Elements 旨在捕捉概念与类别之间已知的真实关系。我们发布此数据集以促进对解释性方法的进一步研究和评估。

Apr, 2024

通过多面体透镜解释神经网络

本研究通过研究分段线性激活函数将激活空间分为许多离散的多面体的方式，提出了新的解释神经网络的方法，并在卷积图像分类器和语言模型上进行了实验，揭示了有关神经网络行为的具体预测

Nov, 2022

通过潜在空间分解揭示独特的概念向量

该论文提出一种后期无监督方法，通过分解和聚类方法，自动发现深度学习模型中的概念向量，从而支持可解释性分析，可以成功鉴别与疏离数据有关的训练样本

Jul, 2023

通过编码理论理解神经网络中的多义性

本文通过应用神经科学和信息论中的工具，提出了一种新的实用方法和理论观点，用于解释神经网络的可解释性和多语义性，研究网络代码的冗余水平，并展示了随机投影如何揭示网络代码的可解释性。同时，文中还解释了多语义神经元对学习性能的优势，并对最近 Elhage 等人的研究结果提出了解释，并推进了神经网络可解释性的探索，为其底层结构提供了洞见，提供了新的电路级可解释性途径。

Jan, 2024

一种可解释的神经元嵌入用于静态知识蒸馏

通过将神经元嵌入语义空间来提取它们内在的全局语义，提出了一种新的可解释神经网络方法。神经元的激活相似性和语义向量相似性被不断对齐来优化语义向量，可视化语义向量可以定性地解释神经网络的工作机制，并经过了定量的知识蒸馏任务的实验验证，表明提出的静态知识蒸馏方法表现出了可比或甚至优于现有的基于关系的知识蒸馏方法。

Nov, 2022

稀疏自编码器发现语言模型中的高度可解释特征

使用稀疏自编码器识别语言模型内部的方向，以消除超级位置现象，并达到模型的透明度和可操控性。

Sep, 2023

多义性的几何学

本文提出了一种三倍增的方法来进行无监督的多义词建模，其中使用低秩子空间来表示包含目标单词的句子，通过对表示的格拉斯曼几何进行聚类算法对目标单词的不同义项进行消歧辨别，最后基于英文维基百科语料库得出了多个词和词义对的表示，这些算法在标准意义识别和消歧辨别数据集上带来了新的最佳成果。

Oct, 2016

语义向量的大脑基础改善了对视觉刺激的神经解码

提出了一种神经解码的表示学习框架，通过微调预训练特征向量以更好地与人脑中的视觉刺激的神经表示对齐，从而提高大脑解码算法的性能。

Mar, 2024

基于向量的表示是关键：有关解缠和组合泛化的研究

在人工智能领域，学习并拥有类人类的智能需要处理认知的本质概念和生成这些概念的新的组合的能力，本文研究了这两种能力之间的关系，并发现基于向量的表示方法可以提高这两种能力，此观察结果与神经科学研究一致，为实现类人智能迈出了重要一步。

May, 2023