如何实现平衡高效的多语言模型: 既保护用户数据，又保持模型性能

Oct, 2022

如何实现平衡高效的多语言模型: 既保护用户数据，又保持模型性能

You Can Have Your Data and Balance It Too: Towards Balanced and Efficient Multilingual Models

Tomasz Limisiewicz, Dan Malkin, Gabriel Stanovsky

TL;DR本文提出了一种基于教师-学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Abstract

multilingual models have been widely used for cross-lingual transfer to low-resource languages. However, the performance on these languages is hindered by their underrepresentation in the pretraining data. To all

发现论文，激发创造

多语言神经机器翻译与知识蒸馏

本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性，并在数据集上进行了实验，结果表明该方法可以通过训练单独的模型（即老师）来训练多语言模型，这使得一个模型即可具备处理多达44种不同语言的能力（且其准确性与单独模型相当甚至更优）。

Feb, 2019

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架MT-BERT，可以从多个教师PLMs中训练高质量的学生模型，并在三个基准数据集上验证了其压缩PLMs的有效性。

Jun, 2021

MergeDistill: 使用蒸馏方法合并预训练语言模型

本文提出了 MergeDistill 框架，通过知识蒸馏的方式合并预先训练的多语言模型，旨在快速训练出性能与甚至优于数量级更大的模型，同时强调教师模型的选择对学生模型性能的影响。

Jun, 2021

多语言语言模型预训练的语义知识多级蒸馏

本论文提出了一种新的多层次多语种知识蒸馏方法（MMKD），采用英语BERT中的丰富语义表征知识和师生框架来鼓励源-目标对之间的多个层次一致性和教师和学生模型之间的相关相似性，以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明，相对其他基线模型，MMKD在XNLI和XQuAD上表现更好，在PAWS-X上表现相当，并且在低资源语言上获得了显著的性能提升。

Nov, 2022

AMTSS: 自适应多教师单学生知识蒸馏框架用于多语言语言推断

提出AMTSS，一种自适应的多教师单学生蒸馏框架，它允许从多个教师向单个学生蒸馏知识，对于开发和机器成本的大幅降低做出了贡献。在公共XNLI数据集和电子商务情景下的实际工业数据集AliExpress（AE）上获得了有竞争力的结果。

May, 2023

跨语言转移的高效语言特定模型精简

提出从大规模多语言Transformer中提取压缩的、语言特定的模型的方法，通过二阶段稀疏精调生成双语模型，从而在目标语言性能方面表现出最小的降级而且速度更快。

Jun, 2023

X-Instruction: 用自动筛选的跨语言指示对低资源语言进行语言模型对齐

通过在低资源语言中构建跨语言的英文指令样本，可以提高大型语言模型的响应质量。

May, 2024

特权学生：关于多语言知识蒸馏中初始化价值的研究

我们调查了知识蒸馏在多语言环境中的价值和模型初始化方法，发现通过将教师模型的权重直接复制到学生模型来增强初始化对于各种多语言环境中的模型初始化最为重要，并证明了高效的权重初始化在低资源场景下仍能保留多语言能力。

Jun, 2024

低资源文本到语音的多语言训练策略

本研究解决了低资源语言文本到语音(TTS)模型数据集构建的挑战，尤其是从社交媒体获取数据以构建小型数据集。通过跨语言迁移学习，本研究发现多语言预训练在提高生成语音的可懂度和自然性方面优于单语言预训练，展示了其在低资源语言TTS中的重要潜力。

Sep, 2024

MiniPLM：预训练语言模型的知识蒸馏

本研究解决了预训练语言模型知识蒸馏中的效率、灵活性和有效性问题。通过MiniPLM框架，采用离线教师模型推理，优化了训练数据分布，提高了学生模型的知识获取能力。实验表明，MiniPLM在多个下游任务上显著提升了学生模型的性能，提高了语言建模能力，并降低了预训练计算需求。

Oct, 2024