预训练变压器网络中的知识神经元

ACLApr, 2021

预训练变压器网络中的知识神经元

Knowledge Neurons in Pretrained Transformers

Damai Dai, Li Dong, Yaru Hao, Zhifang Sui, Baobao Chang...

TL;DR本文提出预训练模型中知识神经元的概念并探究其如何存储事实知识，通过使用填空测试来确定知识神经元并证明其与对应事实的正相关性。进一步研究表明，可以利用知识神经元对特定的事实进行编辑并揭示了其存储知识的方式。

Abstract

Large-scale pretrained language models are surprisingly good at recalling factual knowledge presented in the training corpus. In this paper, we present preliminary studies on how →

pretrained language models knowledge neurons transformers cloze task factual knowledge

发现论文，激发创造

基于 Transformer 的知识归属模式挖掘

本文研究了 Knowledge Neurons 框架的知识神经元以及它们在 Transformer 网络中对于事实和关系知识的归因。研究发现，大多数的事实知识可以归属于网络的中高层。而中间层次则更多负责关系信息，最后数层则进一步提炼成实际的事实知识或 “正确答案”。此外，本文的实验还表明，该模型可处理不同语言的提示，但提供了类似的信息，进一步证明了多语言预训练技术的有效性。研究还将归属方案应用于语法知识，发现语法知识比事实知识更为分散。

May, 2022

预训练转换器的神经知识库

本文提出一种神经知识库及知识注入策略，将额外的事实知识注入到预训练模型中，验证了其对模型性能的提升，同时保证了模型通用语言建模能力的不变性，并探讨了知识库的可解释性和灵活性。

Jul, 2022

语言模型作为知识库吗？

通过对预训练语言模型的深入分析，我们发现未经微调的 BERT 模型竞争传统 NLP 方法的关系知识，可以根据开放式关系进行查询，某些类型的事实知识比标准语言模型预训练方法更容易学习，并可以作为无监督的开放式 QA 系统的潜力展现。

Sep, 2019

预训练 Transformer 中的知识传递

研究人员通过深入研究语言模型的计算图，发现知识电路在表达特定知识方面起到了重要作用。他们还评估了当前知识编辑技术对这些知识电路的影响，并利用知识电路分析和解释语言模型的行为。这些研究为我们理解 Transformer 的工作原理以及指导知识编辑的改进设计提供了深入的见解。

May, 2024

在预训练的基于 Transformer 的语言模型中寻找技能神经元

本论文研究了预训练 Transformer 中某些神经元的激活与特定任务的关联性，发现这些神经元被称为技能神经元，并证实它们对于任务的处理至关重要且具有任务特异性，可通过适当的微调或冻结车舱重用提取得到。此外，还探索了技能神经元的应用，包括网络修剪和构建更好的可转移性指标，这对于加速 Transformer 的发展和进一步研究也有很大推动作用。

Nov, 2022

BERTnesia: 探究 BERT 中知识的捕捉和遗忘

这篇文章探讨了 BERT 模型如何从它的参数化内存中获取关系知识，并使用知识库补全任务在 BERT 的每一层中进行了测试。作者发现，中间层对于 BERT 模型中的总知识量贡献了很大的部分，同时发现 fine-tune 时，与训练数据和训练目标有关。而容量和事实密度是学习事实的关键。

Jun, 2021

知识神经元论与知识有什么关系？

重新评估了 Knowledge Neuron (KN) Thesis，发现其对于大型语言模型从训练语料库中提取事实的机制的解释过于简化，并且无法充分解释事实表达的过程，需要进一步研究模型的复杂层结构和注意机制来获得更全面的知识表示过程的理解。

May, 2024

修改 Transformer 模型中的记忆

本文提出了一个新任务，即在确保模型在未修改的信息方面的性能不降低的情况下显式修改 Transformer 模型中特定的事实知识，并在此任务上基准化了几种方法，发现了用于知识修改的 Transformer 模型的关键组件，并提供了关于不同训练阶段（如预训练和微调）对记忆和知识修改所起作用的见解。

Dec, 2020

知识神经中心之旅：发现无关语言的知识神经元和退化知识神经元

本研究揭示了多语种预训练语言模型中的事实知识是如何存储在参数中的，并引入了架构适应性多语种集成梯度方法，它相比现有方法更准确地定位知识神经元，并且在不同的架构和语言中更具普适性。此外，我们对知识神经元进行了深入探索，发现了两个重要发现：(1) 存储跨语言事实知识的语言无关知识神经元的发现；(2) 退化知识神经元的发现，它表明不同的知识神经元可以存储相同的事实。实验证明了这些发现，并为多语种预训练语言模型中事实知识存储的机制提供了宝贵的见解，源代码将公开供进一步研究使用。

Aug, 2023

上下文对语言模型事实预测的影响

本论文研究了在大规模无监督文本语料库上预训练的语言模型，结合信息检索系统以纯无监督方式来增强预训练语言模型，并成功提高了其零样本缺失式问答系统的性能，尤其通过使用不同的分隔符处理查询和上下文，让 BERT 能够更好的判断是否匹配上下文从而增加准确性和鲁棒性。

May, 2020