如何将预训练的多语言模型应用至1600种语言

Jun, 2021

如何将预训练的多语言模型应用至1600种语言

How to Adapt Your Pretrained Multilingual Model to 1600 Languages

Abteen Ebrahimi, Katharina Kann

TL;DR使用新约圣经等语料，对现有方法对新语言进行预训练模型转移进行了评估，并发现继续预训练是最好的方法，并且在词性标注和命名实体识别等任务中可以获得高达17.69％的精度提升。

Abstract

pretrained multilingual models (PMMs) enable zero-shot learning via cross-lingual transfer, performing best for languages seen during pret

发现论文，激发创造

使用词汇扩展提高预训练多语言模型的性能

本文研究了两种方法（联合映射和混合映射）来解决预先训练的BERT多语言模型中的词汇表大小和词汇缺失问题，并在多个任务中进行了实验。结果表明，使用混合映射更有前途。这是首次在多语言环境下试图解决词汇缺失问题。

Sep, 2019

UNKs无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

AmericasNLI: 评估真正低资源语言中预训练多语种模型的零样本自然语言理解

探索是否可以在未见过的语言上进行高级语义任务的零-shot学习。通过AmericasNLI，测试了零-shot和翻译法等多种方法，结果发现XLM-R的零-shot表现很差，但通过持续预训练和对假设模型的考虑，有所提高。意外的是，用翻译不好的数据训练的表现最好。

Apr, 2021

预训练多语言语言模型入门

该论文调查了关于多语言语言模型的研究，包括零样本迁移学习，预训练，跨语言和双语任务，展望了未来研究的方向。

Jul, 2021

MDAPT: 单模型多语种领域自适应预训练

本研究旨在探究利用领域自适应预训练的方法，结合多语言语料库来同时训练一个领域特定和多语言的语言模型，从而提高目标领域内不同语言任务的文本建模能力。研究结果表明，用这种模型在生物医学命名实体识别和金融句子分类等多个领域特定数据集上进行测试，可以比一般的多语言模型表现更好，接近于单语言情况下的性能表现。

Sep, 2021

匹配脚本，适应多语: 分析多语言预训练对跨语言可迁移性的影响

本研究旨在探讨预训练语言模型在不同数量、相关性条件下的零样本学习能力，并发现通过模型适应，增加预训练语言数量能够提高语言模型的性能。

Mar, 2022

通过多语言自适应微调将预训练语言模型改进到非洲语言

本文通过多语言自适应微调方法，改进了前馈神经网络(AfriBERTa和XLM-R)模型，使其适配17种最常用的非洲语言及其他3种在非洲大陆广泛使用的高资源语言，在NER、新闻主题分类和情感分类等自然语言处理任务中具有竞争性，且需要的磁盘空间明显少于单个语言的自适应微调方法。同时，本文的适配模型还能够改善参数效率微调方法的零-shot跨语言转移能力。

Apr, 2022

通过使用翻译指示进行多语言微调，引发大型语言模型的翻译能力

本篇论文通过对一个多语种预训练语言模型XGLM-7B进行微调并给出指示进行多语种翻译的实验，展示了预训练语言模型在翻译任务中的较强能力，并发现其翻译能力依赖于对翻译指令的理解和语言之间的对齐，研究结果可启发模型改进。

May, 2023

高效地将预先训练好的语言模型适应新语言

本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中，避免灾难性遗忘和标记器效率低下的问题，并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明，我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面，能够达到比开源模型更好的性能，同时对英语的回归影响很小。

Nov, 2023

针对低资源语言家族的定向多语言适应

对于低资源语言，通过针对性的多语言训练，依照乌拉尔语系为案例进行调整，通过实验证明适应性的词汇大小对于低资源语言的影响相对较小，低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微，从而为特定语境中的语言适应性提供了新的最佳实践。

May, 2024