自蒸馏模型叠加在 200 + 种语言中实现跨语言自然语言理解
提出从大规模多语言 Transformer 中提取压缩的、语言特定的模型的方法,通过二阶段稀疏精调生成双语模型,从而在目标语言性能方面表现出最小的降级而且速度更快。
Jun, 2023
本文提出了 MergeDistill 框架,通过知识蒸馏的方式合并预先训练的多语言模型,旨在快速训练出性能与甚至优于数量级更大的模型,同时强调教师模型的选择对学生模型性能的影响。
Jun, 2021
本文探讨了如何利用自监督学习的方法,在多语言机器翻译任务中实现参数的有利学习,其中采用了基于噪声消除的简单自监督任务,并将其与原有任务同时进行。通过这两种方法的结合,在 8 种和 15 种语言基准测试中分别比 MASS 等三种最先进的自监督学习方法提高了 11.3%和 3.7%的性能。
Feb, 2023
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019
本论文提出了一种多阶段蒸馏框架来构建小型但高性能的跨语言模型,同时结合对比学习、瓶颈和参数循环策略,解决了模型压缩过程中性能损失严重的问题,并证明该方法可以将 XLM-R 和 MiniLM 的大小压缩了 50%以上,而性能仅降低了约 1%。
Sep, 2022
本文介绍了一种简单的方法,使用单个编码器和解码器之间的翻译来在 13 种语言之间翻译,基于经验发现,提出了两种知识蒸馏方法,以进一步增强多语言机器翻译性能。我们的实验表明,在零 - shot 翻译方案中,在低资源语言对中减轻了糟糕的性能,并在一些非英语语言对之间实现了可靠性能。
Apr, 2020
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语 BERT 中的丰富语义表征知识和师生框架来鼓励源 - 目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD 在 XNLI 和 XQuAD 上表现更好,在 PAWS-X 上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
使用 Translate-Distill 框架进行跨语言信息检索 (CLIR) 已经显示出其通过翻译和塑造训练跨语言神经双重编码器模型的好处。然而,Translate-Distill 仅支持单一语言。本研究扩展 Translate-Distill 并提出了用于多语言信息检索 (MLIR) 的多语言 Translate-Distill (MTD) 方法。我们通过 nDCG@20 指标和 MAP 指标在性能上展示了使用 MTD 培训的 ColBERT-X 模型优于以前的最先进训练方法 Multilingual Translate-Train,其在 nDCG@20 上提高了 5% 到 25%,在 MAP 上提高了 15% 到 45%。我们还展示了该模型对于训练批次中语言混合方式的鲁棒性。我们的实现可在 GitHub 上找到。
May, 2024
本文介绍了一种名为 LSSD(Language-Specific Self-Distillation)的新型训练策略,该策略可以缓解不同语言对之间的收敛不一致性并帮助 MNMT 模型同时在每种语言对上取得最佳性能。实验结果表明,LSSD 可以显著提高所有语言对的翻译性能,达到了最先进水平。
May, 2022