多语言语言模型处理新语言的挑战：从 mBERT 不可见开始

ACLOct, 2020

多语言语言模型处理新语言的挑战：从 mBERT 不可见开始

When Being Unseen from mBERT is just the Beginning: Handling New Languages With Multilingual Language Models

Benjamin Muller, Antonis Anastasopoulos, Benoît Sagot, Djamé Seddah

TL;DR通过比较多语言和单语言模型，本文表明了在大量的原始数据上使用基于预训练语言模型的迁移学习在处理未见过的语言中存在多种行为，其中一些语言能够从迁移学习中受益，而另一些则似乎不行，我们还发现这种无法传递的失败很大程度上与用于书写这些语言的字符的影响有关，转写这些语言可以极大地提高后续任务的大规模多语言语言模型的能力。

Abstract

transfer learning based on pretraining language models on a large amount of raw data has become a new norm to reach state-of-the-art performance in NLP. Still, it remains unclear how this approach should be appli

transfer learning pretraining language models unseen languages multilingual models script impact

发现论文，激发创造

UNKs 无处不在：将多语言语言模型适应新的字符集

本文介绍了一种基于矩阵分解和词汇重叠的方法，能够快速适应预先训练的多语言模型以适应资源匮乏的语言和未知脚本，并且在这些语言中能够获得显著的性能提升。

Dec, 2020

多语言语言模型的绩效驱动因素是什么？

通过研究 204 种语言的多语言大型语言模型（MLLMs）在不同语言上的表现，考察了预训练数据大小、资源可用性、语言家族和脚本类型等因素对模型性能的影响，并发现对于已知语言来说，预训练数据大小是最重要的因素，而对于未知语言来说，脚本类型和语言家族至关重要。模型大小和结构并不显著改变最重要的特征，这些研究结果为当前 MLLMs 的优势和局限性提供了有价值的见解，并希望指导更有效、公平的多语言自然语言处理系统的开发。

Apr, 2024

从英语到外语：迁移预训练语言模型

本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法，使用单个 GPU，一天内可以获得一种新的外语 BERT 基础模型，并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。

Feb, 2020

多语言模型中的语言表示研究

通过研究多语言模型的语言学表示，我们发现针对低资源语言，以某个语言家族或地理位置为重点且由这些语言使用者构建的社区中心模型在区分同一语言家族的语言方面表现更好，有助于理解多语言模型的问题并提供改进方法。

Oct, 2023

通过本地结构探针检测对多语言模型不可理解的语言

本研究旨在通过不需要标注数据的方法，检测当前哪些语言无法受益于跨语言模型，我们基于构建一个跨语言句子相似度任务，对 350 个主要的低资源语言进行了实证评估。

Nov, 2022

关于单语表示的跨语言转移性

新颖的跨语言转移学习方法 - 从单语言模型到新语言，通过学习一个新的词嵌入矩阵来实现，该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。

Oct, 2019

预训练多语言语言模型入门

该论文调查了关于多语言语言模型的研究，包括零样本迁移学习，预训练，跨语言和双语任务，展望了未来研究的方向。

Jul, 2021

以字节衡量跨语言转移

通过实验证实，多语言预训练可以在源语言和目标语言之间进行跨语言迁移，且不仅语言污染和语言近似性是影响迁移的因素，还有一种语言无关的知识组件，可以用于跨语言迁移和知识传递。

Apr, 2024

如何实现平衡高效的多语言模型：既保护用户数据，又保持模型性能

本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022

多语言原型模型在自然语言理解任务中的跨语言可迁移性研究

本文提出一种方案，使用几个样本训练的神经网络和多语言 Transformer 基础模型之间协同作用的跨语言转移，以改进跨语言学习的性能，实验结果表明，我们的方法能够显著提高跨低资源语言与高资源语言之间的转移学习性能，进一步的结果证明了 meta-learning 的能力。

Jul, 2022