本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达44种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019
本文提出了一种多教师知识蒸馏框架MT-BERT,可以从多个教师PLMs中训练高质量的学生模型,并在三个基准数据集上验证了其压缩PLMs的有效性。
Jun, 2021
本文提出了 MergeDistill 框架,通过知识蒸馏的方式合并预先训练的多语言模型,旨在快速训练出性能与甚至优于数量级更大的模型,同时强调教师模型的选择对学生模型性能的影响。
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语BERT中的丰富语义表征知识和师生框架来鼓励源-目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD在XNLI和XQuAD上表现更好,在PAWS-X上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
提出AMTSS,一种自适应的多教师单学生蒸馏框架,它允许从多个教师向单个学生蒸馏知识,对于开发和机器成本的大幅降低做出了贡献。在公共XNLI数据集和电子商务情景下的实际工业数据集AliExpress(AE)上获得了有竞争力的结果。
May, 2023
提出从大规模多语言Transformer中提取压缩的、语言特定的模型的方法,通过二阶段稀疏精调生成双语模型,从而在目标语言性能方面表现出最小的降级而且速度更快。
Jun, 2023
通过在低资源语言中构建跨语言的英文指令样本,可以提高大型语言模型的响应质量。
May, 2024
我们调查了知识蒸馏在多语言环境中的价值和模型初始化方法,发现通过将教师模型的权重直接复制到学生模型来增强初始化对于各种多语言环境中的模型初始化最为重要,并证明了高效的权重初始化在低资源场景下仍能保留多语言能力。
Jun, 2024
本研究解决了低资源语言文本到语音(TTS)模型数据集构建的挑战,尤其是从社交媒体获取数据以构建小型数据集。通过跨语言迁移学习,本研究发现多语言预训练在提高生成语音的可懂度和自然性方面优于单语言预训练,展示了其在低资源语言TTS中的重要潜力。
Sep, 2024
本研究解决了预训练语言模型知识蒸馏中的效率、灵活性和有效性问题。通过MiniPLM框架,采用离线教师模型推理,优化了训练数据分布,提高了学生模型的知识获取能力。实验表明,MiniPLM在多个下游任务上显著提升了学生模型的性能,提高了语言建模能力,并降低了预训练计算需求。
Oct, 2024