对预训练语言模型中个体神经元的分析

EMNLPOct, 2020

对预训练语言模型中个体神经元的分析

Analyzing Individual Neurons in Pre-trained Language Models

Nadir Durrani, Hassan Sajjad, Fahim Dalvi, Yonatan Belinkov

TL;DR本研究探讨了使用深度 NLP 模型学习的表示来捕捉语言知识。在核心语言学任务上进行了神经元级别的分析，研究了预训练的语言模型中的神经元是否捕捉了语言信息，哪些部分学习了某些语言现象，信息分散或集中在哪里，以及不同架构在学习这些属性方面的差异。本研究发现预测语言任务的神经元是小的子集，与较低级任务（如形态学）相比，预测句法这样的更高级任务的神经元更加分散。同时，本研究还揭示了有趣的跨架构比较，比如我们发现在预测性质方面，XLNet 中的神经元更加局部化和不连通，而 BERT 等则更加分布式和耦合。

Abstract

While a lot of analysis has been carried to demonstrate linguistic knowledge captured by the representations learned within deep nlp models, very little attention has been paid towards individual neurons.We carry

linguistic knowledge deep nlp models neuron-level analysis pre-trained language models syntax

发现论文，激发创造

语言相关性分析：在深度 NLP 模型中发现显著神经元

该研究利用 Linguistic Correlation Analysis 技术，定位和提取能够预测不同语言任务的少量神经元，研究表明深度 NLP 模型中神经元的学习特征高度分布和冗余，预训练模型的微调也会影响学习到的语言知识，同时还发现多语言变压器模型中的神经元分布具有相似性。

Jun, 2022

同一神经元，不同语言：探究多语言预训练模型中的形态语法

该研究采用神经元级别探测器，在包括 43 种语言的 14 个形态句法类别上进行了大规模的实证研究，并发现了多语言预训练模型的跨语言重叠是显著的，但其范围可能因语言接近性和预培训数据的大小而异，支持其能够对语法进行语言通用的抽象。

May, 2022

分析深度自然语言处理模型中的单个神经元，犹如沙漠中的一粒沙

研究者提出用于解释神经网络在自然语言处理任务中的单个特定维度及其与模型性能的相关性分析的方法，并公开了工具箱。

Dec, 2018

语言特定神经元：大型语言模型多语能力的关键

通过新的检测方法 - 语言激活概率熵（LAPE），我们研究了大型语言模型中的 Transformer 架构，以确定语言特定的区域，并显示了激活或关闭特定语言神经元对大型语言模型输出语言的可控性。

Feb, 2024

分析语言模型中个别神经元的陷阱

本文讨论了使用外部探针的方法评估神经元与语言相关性的方法，指出其存在的问题并提出新的评估方法。

Oct, 2021

迁移学习对深度自然语言处理模型中语言知识的影响？

本文研究对先前已经预训练好的 Bert、RoBERTa 和 XLNet 等神经语言模型通过微调来改进下游自然语言处理任务的表现，并使用层级和神经元级别的诊断分类器来检查这些模型的语言知识的学习方式，发现这些模型对于不同的任务有不同的语言知识保留或遗忘方式，这种模式在三个模型中都有所不同。

May, 2021

神经语言模型的语言学分析

本文探究了神经语言模型（NLM）在调整细节后所学习到的语言知识及其对于多种分类问题的预测影响，结合多重探测任务发现，尽管 BERT 能够编码多种语言特征，但在特定的下游任务训练后往往导致相关信息丢失，而 BERT 对于不同语言属性的编码能力将正面影响它的预测能力。

Oct, 2020

神经元专业化：利用内在任务模块化实现多语言机器翻译

通过神经元特化，提出一种解决多语言翻译中干扰和促进知识转移的方法，并通过大量实验证明了其相比强基准模型的性能提升以及减少干扰并增加知识转移的效果。

Apr, 2024

神经语言模型并非一出生就适合大脑数据，但训练有助于改善

本文探讨了使用神经语言模型对大脑活动进行研究的方法，主要研究了测试损失、训练语料库和模型架构对捕捉大脑活动的影响，并提出了未来研究的良好实践建议。

Jul, 2022

多语言语言模型中的句法一致性神经元因果分析

该研究通过在不同语言的多语言语言模型和单语 BERT 模型中执行反事实扰动，并观察模型主谓一致概率的效果，发现了受语法一致性影响的神经元的分布情况，语言模型的行为分析可能低估了掩码语言模型对语法信息的敏感性。

Oct, 2022