多语言序列标注的结构级知识蒸馏
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语 BERT 中的丰富语义表征知识和师生框架来鼓励源 - 目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD 在 XNLI 和 XQuAD 上表现更好,在 PAWS-X 上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
利用知识蒸馏技术将小型语法语言模型的知识传递到 LSTM 语言模型,从而使 LSTM 对更大的训练数据开发出更具结构感知性的表示方式。在针对语法的评估中,我们发现,尽管顺序 LSTM 比以前的报告要好得多,但我们提出的技术显著改善了这个基准值,产生了新的最佳成果。我们的发现和分析确认了结构上的偏差的重要性,甚至是在从大量数据中学习的模型中也如此。
Jun, 2019
大语言模型(LLMs)在各种自然语言处理任务中有了显著的进展,但部署仍然需要大量的计算资源。我们介绍了一种名为 Multi-Stage Balanced Distillation(BalDistill)的框架,通过在固定的计算资源预算内动态选择代表性的正样本和合成尾部样本,平衡训练数据,并在各种长尾数据集上取得了最先进的性能,提高了蒸馏模型的效率和效果。
Jun, 2024
我们提出了一种多阶段协同知识蒸馏方法,用于稀缺标记数据的半监督序列预测任务,通过从提示的大型语言模型中蒸馏出的学生模型,在特定任务上能够更好地泛化,且在两个句法分析任务上表现出了优势。
Nov, 2023
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
该文提出了一种简单有效的方法,通过局部匹配所有子结构的预测结果而非整个输出空间,将知识从教师模型传递给其学生模型,较之现有方法在训练效率方面相对更高,并鼓励学生模型更好地模拟教师模型的内部行为。该方法在两个结构化预测任务上的实验表明,可以胜过先前的方法并且减少一个训练周期的时间成本。
Mar, 2022
本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。
Jun, 2016
使用序列级知识蒸馏技术在数据增强和正则化的前提下训练较小的机器翻译模型,可实现类似于基准 SLKD 的结果,并显著提高 BLEU 分数。
Dec, 2019