多语言语言模型预训练的语义知识多级蒸馏

Nov, 2022

多语言语言模型预训练的语义知识多级蒸馏

Multi-level Distillation of Semantic Knowledge for Pre-training Multilingual Language Model

Mingqi Li, Fei Ding, Dan Zhang, Long Cheng, Hongxin Hu...

TL;DR本论文提出了一种新的多层次多语种知识蒸馏方法（MMKD），采用英语BERT中的丰富语义表征知识和师生框架来鼓励源-目标对之间的多个层次一致性和教师和学生模型之间的相关相似性，以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明，相对其他基线模型，MMKD在XNLI和XQuAD上表现更好，在PAWS-X上表现相当，并且在低资源语言上获得了显著的性能提升。

Abstract

pre-trained multilingual language models play an important role in cross-lingual natural language understanding tasks. However, existing methods did not focus on learning the semantic structure of representation,

发现论文，激发创造

DistilBERT：BERT的简化版——更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将BERT模型的大小缩小40％，同时保持97％的语言理解能力并且速度提升60％，这种方法被称为DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019

多语言序列标注的结构级知识蒸馏

该研究提出使用知识蒸馏减少多语言模型与单语言模型之间性能差距，实验结果显示我们的方法优于多个基准模型并具有更强的零次通用性。

Apr, 2020

LRC-BERT：用于自然语言理解的潜在表示对比知识蒸馏

本文提出了一种基于对比学习的知识蒸馏方法LRC-BERT，并引入渐变扰动训练架构以提高其鲁棒性。通过验证GLUE基准测试上的8个数据集，表明该方法的性能优于现有最先进的方法，证明了该方法的有效性。

Dec, 2020

语言模型压缩中的语言上下文提取

本文提出了一种新的语言表示学习的知识蒸馏方法，通过单词关系和层变换关系传递上下文知识，无需限制教师和学生的架构变化，验证了该方法在语言理解任务的各种架构和DynaBERT等自适应尺寸剪枝方法的挑战性基准上的有效性。

Sep, 2021

哪个学生最好？针对任务特定BERT模型的综合知识蒸馏考试

本文研究使用知识蒸馏从BERT模型到各种学生模型（BiLSTM、CNN、BERT-Tiny、BERT-Mini和BERT-Small）对印尼语文本分类和序列标记进行实验研究，提出了效率高的知识蒸馏训练机制，并发现使用BiLSTM和CNN学生模型可以在性能和计算资源方面提供最好的平衡。

Jan, 2022

跨语种语义相似匹配的多阶段蒸馏框架

本论文提出了一种多阶段蒸馏框架来构建小型但高性能的跨语言模型，同时结合对比学习、瓶颈和参数循环策略，解决了模型压缩过程中性能损失严重的问题，并证明该方法可以将XLM-R和MiniLM的大小压缩了50％以上，而性能仅降低了约1％。

Sep, 2022

如何实现平衡高效的多语言模型: 既保护用户数据，又保持模型性能

本文提出了一种基于教师-学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022

神经语言模型的一致性蒸馏架构

本研究探讨了一种Knowledge Distillation的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个teacher networks预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务(NLU)的性能，同时在Plagiarism Detection方面也有了更好的表现。

Jan, 2023

中间层蒸馏在压缩语言模型中的再次探讨：过拟合的角度

本文介绍了一种名为一致性正则化的中间层知识蒸馏方法，有效解决了其他中间层知识蒸馏方法容易过拟合的问题，并在模型蒸馏方面表现高效。

Feb, 2023

MLKD-BERT：预训练语言模型的多层知识蒸馏

我们提出了一种新颖的知识蒸馏方法MLKD-BERT，在教师-学生框架中蒸馏多层级知识。对GLUE基准和提取型问答任务的大量实验表明，我们的方法在BERT上胜过了最先进的知识蒸馏方法。此外，MLKD-BERT可以灵活设置学生注意力头数，能够显著减少推理时间并且性能损失很小。

Jul, 2024