生成语言模型中神经元信息性文本描述的探索

AAAIJan, 2024

生成语言模型中神经元信息性文本描述的探索

Towards Generating Informative Textual Description for Neurons in Language Models

Shrayani Mondal, Rishabh Garodia, Arbaaz Qureshi, Taesung Lee, Youngja Park

TL;DR使用 BERT 为例，本文提出了一种新颖且可扩展的框架，将文本描述与神经元联系起来，并通过生成式语言模型发现数据特定的可解释描述符，用于解释编码这些描述符的神经元。实验证明，该方法在识别神经元方面达到了 75% 的 2 阶精度和 50% 的 2 阶回想率。

Abstract

Recent developments in transformer-based language models have allowed them to capture a wide variety of world knowledge that can be adapted to downstream tasks with limited resources. However, what pieces of information are understood in these models is unclear, and →

transformer-based language models neuron-level contributions bert generative language models data-specific descriptors

发现论文，激发创造

使用大型模型对深度视觉神经元进行自动化自然语言解释

通过研究神经元来解释深度神经网络并生成语义解释，以解决目前在此方面的限制、缺乏可伸缩性和适用性的问题。

Oct, 2023

利用解释作为潜在变量实现可解释的自然语言理解

本文提出了一种可解释自然语言理解的框架，使用一小部分人类注释的解释进行训练，并采用变分 EM 方法进行优化，同时提出了基于解释的自训练方法，在两个自然语言理解任务上进行实验，证明了该框架不仅可以在监督和半监督设置下进行有效的预测，还可以生成良好的自然语言解释。

Oct, 2020

预训练纯文本 Transformer 中的多模态神经元

通过向文本转换器添加视觉信息，我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态，在转换器内部发现了模态之间的转换，并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作，并对图像字幕生成产生系统性的因果影响。

Aug, 2023

使用特征文本化方法研究 BERT 神经元中单词的编码

计算机视觉中可视化特征提供了一种将视觉模型的神经元信息分解解释的方法，我们的研究受到这一方法的启发并针对大型预训练语言模型进行了活化最大化的尝试；我们提出了特征文本化技术，用于提取预训练语言模型中神经元的知识表示，发现这些表示可以揭示关于神经元所编码的知识的见解，但神经元并不代表清晰的语言符号单元如词。

Nov, 2023

从神经元到图形：大规模解释语言模型神经元

该论文介绍了一种自动化的方法来解释大型语言模型中的神经元行为，并将其转化为可解释的图形表示，从而提高大型语言模型的可解释性和安全性。

May, 2023

基于 LLM 的概念发现：自动识别和解释神经元功能

利用多模态大型语言模型进行自动和无限的概念发现，既可以发现概念，又可以验证它们，为解释深度神经网络提供可信的自动化工具。

Jun, 2024

严格评估神经元的自然语言解释

自然语言是解释大型语言模型如何处理和存储信息的一种吸引人的媒介，然而评估这种解释的忠实度是具有挑战性的。我们开发了两种模式的自然语言解释评估方法，以评估声称单个神经元在文本输入中表示概念的解释的真实性。我们将此框架应用于 Bills 等人 (2023) 提出的 GPT-2 XL 神经元的 GPT-4 生成的解释，并显示即使最有信心的解释也存在高错误率和几乎没有因果效果。我们最后对自然语言是否是解释的良好选择以及神经元是否是最佳分析级别进行了批判性评估。

Sep, 2023

深度视觉特征的自然语言描述

该研究提出了一种名为 MILAN 的程序，通过相互信息引导的语言注释对神经元进行自动标记，并可以生成细粒度的描述，以促进对神经网络的理解、分析和控制，并提供了自然语言神经元描述的三个应用实例。

Jan, 2022

实体建模的数据生成

该论文介绍了一种以实体为中心的神经体系结构，用于生成数据到文本的任务，并通过在 RotoWire 基准和棒球领域的新数据集上进行的实验，表明该模型在自动和人类评估上优于竞争基线。

Jun, 2019

神经文本分类的分层解释

本文提出了一种新的 Hierarchical INTerpretable 神经文本分类器 Hint，它可以自动生成按标签关联的话题的模型预测解释，实验结果表明 Hint 方法在文本分类方面不仅与现有的最先进的文本分类器相当，而且生成的解释比其他可解释的神经文本分类器更符合模型预测，并且更易于被人类理解。

Feb, 2022