在预训练语言模型中发现关键知识子网络

Oct, 2023

在预训练语言模型中发现关键知识子网络

Discovering Knowledge-Critical Subnetworks in Pretrained Language Models

Deniz Bayazit, Negar Foroutan, Zeming Chen, Gail Weiss, Antoine Bosselut

TL;DR我们研究了预训练语言模型是否包含多种具有关键作用的子网络，并提出了一种多目标可微的权重掩蔽方案，以准确删除模型中特定的知识，从而使得模型保留对语言和其他记忆性关联知识的建模能力，但在训练后，其表达被删除知识的能力降低，对需要这些已删除知识的任务产生性能下降。

Abstract

pretrained language models (LMs) encode implicit representations of knowledge in their parameters. However, localizing these representations and disentangling them from each other remains an open problem. In this work, we investigate whether →

pretrained language models knowledge-critical subnetworks sparse computational subgraphs weight masking scheme relational knowledge

发现论文，激发创造

一次双赢的交易：朝着稀疏和鲁棒的预训练语言模型迈进

本文研究细粒度子网络（SRNets）在预训练语言模型（PLMs）中的应用，尤其是在处理 Out-of-Distribution 数据方面的可行性。我们对 BERT 模型进行了广泛的实验，结果表明 SRNets 在不影响性能的情况下可以通过不同的训练和压缩方法来实现。此外，我们发现在 Out-of-Distribution 数据中可以获得稀疏且几乎无偏差的 BERT 子网络。最后，我们提出了解决 SRNets 搜索过程中高效性的方法，并提出了改善子网络性能的解决方案。

Oct, 2022

启发式核心：理解预训练语言模型的子网络泛化

预训练语言模型在语法泛化方面的机制通过探索子网络和注意力机制的角度，提供了更详细的描述。

Mar, 2024

通过语言专业化子网络研究多语言语言模型的模块化

通过使用稀疏微调的语言子网络作为更好引导跨语言共享的手段，最近的研究提出在多语言语言模型中明确引入语言模块化。本文研究了 (1) 在没有特殊模块化干预的情况下，语言模块化自然形成的程度，以及 (2) 这种模型与具有显式稀疏微调引导的子网络模块化的模型之间跨语言共享和干扰的差异。通过使用训练数据归因方法来量化语言专门化和跨语言交互，我们的结果表明，语言专门化的子网络确实自然形成，并且稀疏微调不一定增加模块化，而是可能减少子网络的语言专门化，更倾向于进行跨语言共享。

Nov, 2023

多语言模型中的语言中立子网络发现

本文使用抽象的彩票票假设，发现不同语言的子网络是拓扑相似的（即语言中性），这使它们成为具有有限性能下降的跨语言转移的有效初始化。

May, 2022

在多任务口语语言理解模型中寻找任务特定的子网络

通过神经网络剪枝，在多任务语言理解模型中找到特定任务的子网络，实现模型压缩和在新数据上适应能力的提升。

Jun, 2024

基于子空间嵌入的轻量级神经语言模型适应

我们提出了一种新的紧凑嵌入结构，通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程，来减少预训练语言模型的内存占用，牺牲高达 4% 的绝对准确率。我们的实验结果表明，子空间嵌入在 XNLI 和 GLUE 基准套件上与原始嵌入相比，达到了超过 99.8% 的压缩率。

Aug, 2023

预训练 Transformer 中的知识传递

研究人员通过深入研究语言模型的计算图，发现知识电路在表达特定知识方面起到了重要作用。他们还评估了当前知识编辑技术对这些知识电路的影响，并利用知识电路分析和解释语言模型的行为。这些研究为我们理解 Transformer 的工作原理以及指导知识编辑的改进设计提供了深入的见解。

May, 2024

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

通过任务无关的掩码训练在 BERT 转移上学习赢得彩票的方法

本文通过对 BERT 子网络的研究发现直接优化子网络结构能更好地保留预训练性能，探究了幸运彩票假设、幅度剪枝和二值掩码训练等方法在 BERT 子网络中的应用，发现二值掩码训练方法在寻找改进 BERT 子网络性能方面更加有效。

Apr, 2022

知识感知语言模型预训练

本文通过在预训练中引入实体信号，将知识意识融入到语言模型的预训练中，无需改变 transformer 体系结构、插入显式知识层或添加语义信息外部存储。实验证明，仅通过添加这些实体信号进行预训练，可以在 transformer 参数中装载更多的知识，从而提高语言建模精度，并在 LAMA 知识探测任务中获得事实的正确性，利用边界分析显示出隐藏表示中的语义，同时表明我们的知识感知语言模型（KALM）可以作为一个可抛弃替换 GPT-2 模型，显著提高了零 - shot 问题回答等下游任务的表现。

Jun, 2020