大规模跨语言无监督表示学习

Nov, 2019

Unsupervised Cross-lingual Representation Learning at Scale

Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek...

TL;DR通过在100种语言上使用超过2TB的CommonCrawl数据对基于Transformer的掩蔽语言模型进行大规模的预训练，该模型命名为XLM-R，显著优于mBERT，在跨语言基准测试中实现了+14.6％和+13％的平均准确性和F1分数，并改善了10个低资源语言的准确性，显示了前景。

Abstract

This paper shows that pretraining multilingual language models at scale leads to significant performance gains for a wide range of cross-lingual transfer tasks. We train a Transformer-based masked language model

发现论文，激发创造

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法(XLMs):一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

关于单语表示的跨语言转移性

新颖的跨语言转移学习方法-从单语言模型到新语言，通过学习一个新的词嵌入矩阵来实现，该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。

Oct, 2019

XTREME: 用于评估跨语言通用化的大规模多语言多任务基准数据集

该论文介绍了一个名为XTREME的跨语言多任务基准测试，它可以在40种语言和9个任务上评估多语言表示的跨语言泛化能力，研究表明，跨语言模型在句法和句子检索任务上的性能仍有相当大的差距，该基准测试旨在促进跨语言学习方法的研究。

Mar, 2020

无监督跨语言表示学习用于语音识别

XLSR是一种学习跨语言语音表示的模型，通过对多种语言的语音原始波形进行预训练来构建模型，上述模型建立在wav2vec 2.0的基础之上，可以使用单一模型完成多语言语音识别任务，并且具有更好的性能。

Jun, 2020

XLM-T: 使用预训练的跨语言 Transformer 编码器扩展多语言机器翻译能力

本文介绍了使用预训练的跨语言Transformer编码器初始化模型，并使用多语言平行数据微调的简单方法 XLM-T，它在10种语言对的WMT数据集和94种语言对的OPUS-100语料库中实现了显着的性能提升。此外，对XLM-T进行的无监督句法分析，词对齐和多语言分类的广泛分析说明了其对机器翻译的有效性。

Dec, 2020

面向多语言掩码语言建模的大规模Transformer

本研究探讨了跨语言语言模型预训练的有效性，并且提出了两个参数分别为3.5B和10.7B的大型多语言掩码语言模型，这两个新模型分别称为XLM-R XL和XLM-R XXL，在XNLI中的平均准确率比XLM-R高1.8％和2.4％，同时处理了99种以上的语言，优于RoBERTa-Large模型，表明拥有更大容量的预训练模型可以在高资源语言上取得强大的性能，同时极大地改善了低资源语言。

May, 2021

XLS-R: 在大规模自监督下进行跨语言语音表示学习

本文介绍了XLS-R，这是一个基于Wav2vec 2.0的用于跨语言语音表示学习的大规模模型，其在128种语言的近半百万小时的公开语音音频数据上进行训练，并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。

Nov, 2021

更好的多语言表示学习：超越以英语为中心的双语语料

本文介绍了一种构建多语言表示模型的方法，该方法不仅可以与现有的最先进的模型竞争，而且还更加参数高效，从而促进了资源受限情况和实际应用的更好采用。

Oct, 2022

XLM-V: 克服多语言掩码语言模型中的词汇瓶颈

本文介绍了一种新方法，通过降低语言之间的词汇共享并分配单独语言的词汇容量，实现非常大的多语言词汇量的扩展，用于构建 XLM-V 多语言模型，其表现优于 XLM-R 模型。

Jan, 2023

低资源非洲语言的多语言模型跨语言迁移

本研究解决了高资源多语言模型在低资源语言上效果不佳的问题，比较了单语言与多语言模型在肯尼亚语和基伦迪语之间的跨语言迁移能力。研究发现，AfriBERT在经过微调后实现了88.3%的跨语言准确率，显示多语言模型在资源有限的环境中具备强大的跨语言迁移能力。

Sep, 2024