多教师蒸馏用于多语言拼写校正

Nov, 2023

Multi-teacher Distillation for Multilingual Spelling Correction

Jingfen Zhang, Xuan Guo, Sravan Bodapati, Christopher Potts

TL;DR我们使用多教师蒸馏的方法解决了多语言自然语言处理中的拼写纠正挑战，并通过实验证明这种方法产生了高效的拼写纠正模型，满足部署服务的严格延迟要求。

Abstract

Accurate spelling correction is a critical step in modern search interfaces, especially in an era of mobile devices and speech-to-text interfaces. For services that are deployed around the world, this poses a significant challenge for →

spelling correction multilingual nlp multi-teacher distillation monolingual teacher model spelling correction models

发现论文，激发创造

多语言神经机器翻译与知识蒸馏

本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性，并在数据集上进行了实验，结果表明该方法可以通过训练单独的模型（即老师）来训练多语言模型，这使得一个模型即可具备处理多达 44 种不同语言的能力（且其准确性与单独模型相当甚至更优）。

Feb, 2019

基于知识蒸馏的多语言神经机器翻译的终身学习

研究多语言神经机器翻译中的灾难性遗忘问题，并提出基于知识蒸馏的生命周期学习方法，以应对其面临的问题。实验结果显示，该方法能够更好地巩固以前的知识并显著减轻问题。

Dec, 2022

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

如何实现平衡高效的多语言模型：既保护用户数据，又保持模型性能

本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022

XtremeDistil：大规模多语言模型的多阶段蒸馏

本研究聚焦于多语言实体识别，探究知识蒸馏压缩预训练语言模型的多种策略，通过利用教师模型内部表示的分阶段优化方案，成功将 MBERT 模型压缩了 35 倍参数，51 倍批量推理的延迟，同时保持在 41 种语言中的 95％的 F1 分数。

Apr, 2020

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

探索多语言文本数据蒸馏

通过使用基于语言模型的学习方法，我们在多语言文本分类数据集上提出了几种数据蒸馏技术，来增强文本数据蒸馏领域中的跨体系结构泛化能力，并分析了它们在分类强度和跨体系结构泛化方面的性能，也研究了这些方法生成的数据摘要的语言特定公平性。

Aug, 2023

学生超越导师：基于师生模型的词嵌入蒸馏与集成学习

本文提出了一种新的嵌入蒸馏框架，使词嵌入的维度显著降低但不影响准确性，并介绍了使用多个教师模型训练高效的学生模型的新型蒸馏集成方法。通过实验验证，在七个文本分类数据集上，该方法在大多数情况下均表现出比教师模型更好的性能，对词嵌入的变换进行了深入分析，并提出了使用神经模型进行融合的未来研究方向。

May, 2019

MergeDistill: 使用蒸馏方法合并预训练语言模型

本文提出了 MergeDistill 框架，通过知识蒸馏的方式合并预先训练的多语言模型，旨在快速训练出性能与甚至优于数量级更大的模型，同时强调教师模型的选择对学生模型性能的影响。

Jun, 2021

多语言信息检索的蒸馏

使用 Translate-Distill 框架进行跨语言信息检索 (CLIR) 已经显示出其通过翻译和塑造训练跨语言神经双重编码器模型的好处。然而，Translate-Distill 仅支持单一语言。本研究扩展 Translate-Distill 并提出了用于多语言信息检索 (MLIR) 的多语言 Translate-Distill (MTD) 方法。我们通过 nDCG@20 指标和 MAP 指标在性能上展示了使用 MTD 培训的 ColBERT-X 模型优于以前的最先进训练方法 Multilingual Translate-Train，其在 nDCG@20 上提高了 5% 到 25%，在 MAP 上提高了 15% 到 45%。我们还展示了该模型对于训练批次中语言混合方式的鲁棒性。我们的实现可在 GitHub 上找到。

May, 2024