多教师蒸馏用于多语言拼写校正
本文提出了 MergeDistill 框架,通过知识蒸馏的方式合并预先训练的多语言模型,旨在快速训练出性能与甚至优于数量级更大的模型,同时强调教师模型的选择对学生模型性能的影响。
Jun, 2021
本文提出了一种基于教师-学生知识蒸馏的新型多语种训练技术,利用平衡(子采样)数据将单语教师模型的知识蒸馏到一个多语种学生中,可以提高自然语言处理系统中低资源语言的表现。
Oct, 2022
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语BERT中的丰富语义表征知识和师生框架来鼓励源-目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD在XNLI和XQuAD上表现更好,在PAWS-X上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
该论文介绍了一种多语种的拼写检查器,它可以根据特定产品的需求适应其词汇,并在领域特定的数据集上性能优异,可以用于搜索和为各种应用程序提供自动完成功能。
May, 2023
我们提出了一种对生成模型进行拼写纠错的方法,该方法通过研究文本中的自然拼写错误和打字错误,探索了模拟这些错误在正确句子中的方式,以有效丰富生成模型的预训练过程,并研究了这些模拟对模型能力的影响与文本域的关系。
Aug, 2023
在本研究中,我们提出了一种面向低资源场景的对齐方法:MAML-Align,利用基于优化的模型无关元学习器MAML进行元蒸馏学习,从面向单语和双语语义搜索的Teacher元迁移模型T-MAML中提取知识,再将其转移到面向多语言语义搜索的Student模型S-MAML中。我们的实证结果表明,相对于朴素微调方法,我们的元蒸馏方法不仅提升了基于句子转换器的强基线的效果,而且显著超过了MAML所提供的增益。此外,多语言元蒸馏学习还提高了对未知语言的泛化能力。
Sep, 2023
我们提出了一种创新的模型无关的多阶段知识传递框架,该框架通过在每个领域中利用不断演化的教师模型进行知识传递来解决多领域中文拼写纠正模型在适应时容易遗忘先前获得的知识的问题,实验证明了我们提出方法的有效性,并进一步分析表明克服灾难性遗忘对于提高模型性能的重要性。
Feb, 2024
通过训练小规模的基于词的Transformer语言模型,提取语料库中的概率性错误规则,结合语言模型和错误模型,通过嘈杂信道框架开发拼写校正模型,实验验证了该方法在尼泊尔语中的有效性。
Apr, 2024
我们调查了知识蒸馏在多语言环境中的价值和模型初始化方法,发现通过将教师模型的权重直接复制到学生模型来增强初始化对于各种多语言环境中的模型初始化最为重要,并证明了高效的权重初始化在低资源场景下仍能保留多语言能力。
Jun, 2024