多教师蒸馏用于多语言拼写校正
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019
研究多语言神经机器翻译中的灾难性遗忘问题,并提出基于知识蒸馏的生命周期学习方法,以应对其面临的问题。实验结果显示,该方法能够更好地巩固以前的知识并显著减轻问题。
Dec, 2022
本文提出了一种多教师知识蒸馏框架 MT-BERT,可以从多个教师 PLMs 中训练高质量的学生模型,并在三个基准数据集上验证了其压缩 PLMs 的有效性。
Jun, 2021
本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术,利用平衡(子采样)数据将单语教师模型的知识蒸馏到一个多语种学生中,可以提高自然语言处理系统中低资源语言的表现。
Oct, 2022
本研究聚焦于多语言实体识别,探究知识蒸馏压缩预训练语言模型的多种策略,通过利用教师模型内部表示的分阶段优化方案,成功将 MBERT 模型压缩了 35 倍参数,51 倍批量推理的延迟,同时保持在 41 种语言中的 95%的 F1 分数。
Apr, 2020
在本研究中,我们提出了一种面向低资源场景的对齐方法:MAML-Align,利用基于优化的模型无关元学习器 MAML 进行元蒸馏学习,从面向单语和双语语义搜索的 Teacher 元迁移模型 T-MAML 中提取知识,再将其转移到面向多语言语义搜索的 Student 模型 S-MAML 中。我们的实证结果表明,相对于朴素微调方法,我们的元蒸馏方法不仅提升了基于句子转换器的强基线的效果,而且显著超过了 MAML 所提供的增益。此外,多语言元蒸馏学习还提高了对未知语言的泛化能力。
Sep, 2023
通过使用基于语言模型的学习方法,我们在多语言文本分类数据集上提出了几种数据蒸馏技术,来增强文本数据蒸馏领域中的跨体系结构泛化能力,并分析了它们在分类强度和跨体系结构泛化方面的性能,也研究了这些方法生成的数据摘要的语言特定公平性。
Aug, 2023
本文提出了一种新的嵌入蒸馏框架,使词嵌入的维度显著降低但不影响准确性,并介绍了使用多个教师模型训练高效的学生模型的新型蒸馏集成方法。通过实验验证,在七个文本分类数据集上,该方法在大多数情况下均表现出比教师模型更好的性能,对词嵌入的变换进行了深入分析,并提出了使用神经模型进行融合的未来研究方向。
May, 2019
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语 BERT 中的丰富语义表征知识和师生框架来鼓励源 - 目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD 在 XNLI 和 XQuAD 上表现更好,在 PAWS-X 上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022