在预训练语言模型中发现关键知识子网络
本文研究细粒度子网络(SRNets)在预训练语言模型(PLMs)中的应用,尤其是在处理 Out-of-Distribution 数据方面的可行性。我们对 BERT 模型进行了广泛的实验,结果表明 SRNets 在不影响性能的情况下可以通过不同的训练和压缩方法来实现。此外,我们发现在 Out-of-Distribution 数据中可以获得稀疏且几乎无偏差的 BERT 子网络。最后,我们提出了解决 SRNets 搜索过程中高效性的方法,并提出了改善子网络性能的解决方案。
Oct, 2022
通过使用稀疏微调的语言子网络作为更好引导跨语言共享的手段,最近的研究提出在多语言语言模型中明确引入语言模块化。本文研究了 (1) 在没有特殊模块化干预的情况下,语言模块化自然形成的程度,以及 (2) 这种模型与具有显式稀疏微调引导的子网络模块化的模型之间跨语言共享和干扰的差异。通过使用训练数据归因方法来量化语言专门化和跨语言交互,我们的结果表明,语言专门化的子网络确实自然形成,并且稀疏微调不一定增加模块化,而是可能减少子网络的语言专门化,更倾向于进行跨语言共享。
Nov, 2023
我们提出了一种新的紧凑嵌入结构,通过对预训练语言模型中的标记之间的上下文关系进行一组子空间嵌入和分配过程,来减少预训练语言模型的内存占用,牺牲高达 4% 的绝对准确率。我们的实验结果表明,子空间嵌入在 XNLI 和 GLUE 基准套件上与原始嵌入相比,达到了超过 99.8% 的压缩率。
Aug, 2023
研究人员通过深入研究语言模型的计算图,发现知识电路在表达特定知识方面起到了重要作用。他们还评估了当前知识编辑技术对这些知识电路的影响,并利用知识电路分析和解释语言模型的行为。这些研究为我们理解 Transformer 的工作原理以及指导知识编辑的改进设计提供了深入的见解。
May, 2024
本研究提出了一种基于稀疏性诱导正则化的层选择方法,用于压缩大型预训练语言模型,以提高特定任务的计算效率,并在两个基准数据集上进行了实验验证其有效性。
Apr, 2018
本文通过对 BERT 子网络的研究发现直接优化子网络结构能更好地保留预训练性能,探究了幸运彩票假设、幅度剪枝和二值掩码训练等方法在 BERT 子网络中的应用,发现二值掩码训练方法在寻找改进 BERT 子网络性能方面更加有效。
Apr, 2022
本文通过在预训练中引入实体信号,将知识意识融入到语言模型的预训练中,无需改变 transformer 体系结构、插入显式知识层或添加语义信息外部存储。实验证明,仅通过添加这些实体信号进行预训练,可以在 transformer 参数中装载更多的知识,从而提高语言建模精度,并在 LAMA 知识探测任务中获得事实的正确性,利用边界分析显示出隐藏表示中的语义,同时表明我们的知识感知语言模型(KALM)可以作为一个可抛弃替换 GPT-2 模型,显著提高了零 - shot 问题回答等下游任务的表现。
Jun, 2020