多语种模型用于 200 多种高低资源语言的研究

Nov, 2023

多语种模型用于 200 多种高低资源语言的研究

When Is Multilinguality a Curse? Language Modeling for 250 High- and Low-Resource Languages

Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen

TL;DR添加多语言数据可以提高低资源语言模型的性能，但对于高资源语言而言，添加多语言数据可能会降低性能。

Abstract

multilingual language models are widely used to extend NLP systems to low-resource languages. However, concrete evidence for the effects of multilinguality on →

multilingual language models language modeling performance low-resource languages linguistic similarity dataset size

发现论文，激发创造

LlamaTurk：为低资源语言适应开源生成型大语言模型

通过对英语为主的生成大语言模型进行调整，以适应资源匮乏的语言，并评估了不同的策略，包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明，持续训练改进了语言理解能力，任务特定微调一般提高了下游任务的性能，但扩展词汇未带来实质性的益处。此外，在适应时，较大的模型通过少样本微调可以提高任务性能，而多语言模型在适应时表现不如单语言模型。

May, 2024

用预训练模块化 Transformer 解除多语言性的诅咒

该研究通过引入语言特定模块解决了多语言预训练模型中语言性能下降的问题，并在自然语言推断，命名实体识别和问答等方面证明了该方法的有效性，同时也使得可以在不降低性能的情况下添加新的语言。

May, 2022

多语言模型中的语言表示研究

通过研究多语言模型的语言学表示，我们发现针对低资源语言，以某个语言家族或地理位置为重点且由这些语言使用者构建的社区中心模型在区分同一语言家族的语言方面表现更好，有助于理解多语言模型的问题并提供改进方法。

Oct, 2023

多语言语言模型处理新语言的挑战：从 mBERT 不可见开始

通过比较多语言和单语言模型，本文表明了在大量的原始数据上使用基于预训练语言模型的迁移学习在处理未见过的语言中存在多种行为，其中一些语言能够从迁移学习中受益，而另一些则似乎不行，我们还发现这种无法传递的失败很大程度上与用于书写这些语言的字符的影响有关，转写这些语言可以极大地提高后续任务的大规模多语言语言模型的能力。

Oct, 2020

如何实现平衡高效的多语言模型：既保护用户数据，又保持模型性能

本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022

预训练语言模型在低资源编程语言中的可转移性

研究表明，在多语言数据集中使用语料库来微调预训练的多语言自然语言处理模型 (PLMs) 能够获得更高的性能，但是没有对单语言 PLMs 进行分析。此外，不同的编程语言之间的代码通常不能互换，我们调查了单语言和多语言 PLMs 对不同编程语言的影响，分析了超过一百个预训练模型和微调模型，结果表明，多语言 PLMs 具有更低的性能 - 时间比 (在微调期间的 BLEU，METEOR 或 MRR 分数)，我们提出的目标编程语言选择策略能够在减少微调时间的同时在代码摘要和代码搜索任务中实现更高的性能，并且我们的策略在不同代码长度上表现良好。

Apr, 2022

针对低资源语言家族的定向多语言适应

对于低资源语言，通过针对性的多语言训练，依照乌拉尔语系为案例进行调整，通过实验证明适应性的词汇大小对于低资源语言的影响相对较小，低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微，从而为特定语境中的语言适应性提供了新的最佳实践。

May, 2024

预训练的多语言模型在不同语言间的公平性是否相同？

探讨预训练多语言语言模型的组公平性，通过创建一个新的平行洞察测试实例的多语言数据集（MozArt）及使用人口统计信息来评估三种多语言模型（mBERT，XLM-R 和 mT5），我们发现这三种模型在四种目标语言中表现出不同程度的组不公平性，例如在西班牙语中表现出接近相等的风险，但在德语中表现出高水平的不平等。

Oct, 2022

利用多语言技术进行非监督式稀有语言机器翻译

本文研究了针对低资源稀有语种的无监督翻译问题，提出了一个三阶段训练方案的多语种模型，结合了单语和辅助并行数据，取得了明显优于当前无监督基准线的效果。

Sep, 2020

多语能力的祝福：Poro 34B

通过多语言训练，研究引入了 Poro 34B 模型，该模型具有 340 亿个参数，并使用 1 万亿个标记的芬兰语、英语和编程语言进行训练，证明了多语言训练方法可以显著改进现有的芬兰语模型，并在翻译和生成英语和编程语言方面具有竞争力。

Apr, 2024