将 BigScience 多语言模型适应未知语言
通过比较多语言和单语言模型,本文表明了在大量的原始数据上使用基于预训练语言模型的迁移学习在处理未见过的语言中存在多种行为,其中一些语言能够从迁移学习中受益,而另一些则似乎不行,我们还发现这种无法传递的失败很大程度上与用于书写这些语言的字符的影响有关,转写这些语言可以极大地提高后续任务的大规模多语言语言模型的能力。
Oct, 2020
本文介绍了一种基于矩阵分解和词汇重叠的方法,能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本,并且在这些语言中能够获得显著的性能提升。
Dec, 2020
通过研究 204 种语言的多语言大型语言模型(MLLMs)在不同语言上的表现,考察了预训练数据大小、资源可用性、语言家族和脚本类型等因素对模型性能的影响,并发现对于已知语言来说,预训练数据大小是最重要的因素,而对于未知语言来说,脚本类型和语言家族至关重要。模型大小和结构并不显著改变最重要的特征,这些研究结果为当前 MLLMs 的优势和局限性提供了有价值的见解,并希望指导更有效、公平的多语言自然语言处理系统的开发。
Apr, 2024
本研究展示了如何利用语言的亲缘关系信息,以结构化、基于语言学的方式改进跨语言转移,并在多个语言家族(如日耳曼语族、乌拉尔语族、托皮语族和乌托邦 - 阿兹特克语族)上进行适配器训练,在句法和语义任务上实现相对性能提升超过 20%,特别是在没有预先训练的语言上。
May, 2022
本文探究了利用双语词典作为文本资源,从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据,通过不同策略合成文本或标注数据,并与单语文本或平行文本相结合,以提高在三个任务上 19 种欠发达语言的性能,为千余种使用 NLP 技术的欠代表语种提供了思路。
Mar, 2022
本文研究了两个多语言语音模型在适应未见语言上的性能比较,发现模型的预训练数据中包含的语言家族数量和训练时长能预测模型的表现,与预训练方法的差异不相关。
May, 2023
本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现:扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型,在质量分析中,我们的提出的 Bllossom 模型表现出优异的性能。
Mar, 2024
使用新约圣经等语料,对现有方法对新语言进行预训练模型转移进行了评估,并发现继续预训练是最好的方法,并且在词性标注和命名实体识别等任务中可以获得高达 17.69%的精度提升。
Jun, 2021
通过对英语为主的生成大语言模型进行调整,以适应资源匮乏的语言,并评估了不同的策略,包括持续训练、指导微调、任务特定微调和词汇扩展。结果表明,持续训练改进了语言理解能力,任务特定微调一般提高了下游任务的性能,但扩展词汇未带来实质性的益处。此外,在适应时,较大的模型通过少样本微调可以提高任务性能,而多语言模型在适应时表现不如单语言模型。
May, 2024
对于低资源语言,通过针对性的多语言训练,依照乌拉尔语系为案例进行调整,通过实验证明适应性的词汇大小对于低资源语言的影响相对较小,低资源语言在训练阶段能够进行积极采样而对高资源语言的性能影响微乎其微,从而为特定语境中的语言适应性提供了新的最佳实践。
May, 2024