预训练多语言语言模型入门

Jul, 2021

A Primer on Pretrained Multilingual Language Models

Sumanth Doddapaneni, Gowtham Ramesh, Mitesh M. Khapra, Anoop Kunchukuttan, Pratyush Kumar

TL;DR该论文调查了关于多语言语言模型的研究，包括零样本迁移学习，预训练，跨语言和双语任务，展望了未来研究的方向。

Abstract

multilingual language models (\MLLMs) such as mBERT, XLM, XLM-R, \textit{etc.} have emerged as a viable option for bringing the power of pretraining to a large number of languages. Given their success in zero-sho

multilingual language models zero-shot transfer learning pretraining cross-lingual bilingual tasks

发现论文，激发创造

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

多语言蒸馏和零样本感知训练的跨语言文本分类

利用教师 - 学生框架从高性能的单语言模型中转移知识，构建了一个基于 MPLMs 的多语言分支模型（MBLM），并使用零射击感知的训练策略令模型从所有分支的零射击表示中学习，我们的方法仅使用任务的监督数据，提高了 MPLMs 的监督性能和零射击性能。

Feb, 2022

多语言大型语言模型综述：语料库、对齐和偏差调查

该研究分析了多语言大型语言模型（MLLMs）的关键问题，包括语言不平衡、多语言对齐和固有偏差，探讨 MLLMs 的全球语言表示能力、偏见和挑战，并提出了有前景的研究方向。

Apr, 2024

mBBC: 探索多语迷宫

多语言语言模型的综合评估：mBERT、XLM-R 和 GPT-3 在具有不同语言环境的各种语言上的性能评估，发现资源可用性对模型性能有重要影响，并且资源可用性、语言家族和脚本类型之间存在复杂关系，为模型选择和部署提供了见解。

Oct, 2023

优化多语言大型语言模型的语言增强：以韩文为例的案例研究

本研究提出了三种策略以增强不太具备资源的语言在大型语言模型中的表现：扩展词汇表、使用双语数据进行预训练以对齐高资源语言和低资源语言、构建高质量的小规模指令数据集并进行指令微调。通过对比八个任务的其他大型语言模型，在质量分析中，我们的提出的 Bllossom 模型表现出优异的性能。

Mar, 2024

多语言语言模型跨语言转移因素的共同理解：一篇综述

本综述论文旨在调查不同因素对多语言预训练语言模型实现零 - shot 跨语言转移的贡献，提供了对过去研究的实证证据概要，并识别一致性结果以及解决矛盾之处，进而为未来研究提供参考点与指导。

May, 2023

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

预训练的多语言语言模型在零差生成中的实证研究

通过在一个语言上对多语言预训练语言模型（mPLM）进行微调，再在其他语言上使用它进行预测，零样本跨语言生成通常会出现使用错误语言生成的问题，本研究测试了替代的 mPLMs（如 mBART 和 NLLB），考虑到全微调和适配器参数高效微调，并发现带适配器的 mBART 的性能与相同规模的 mT5 相似，NLLB 在某些情况下具备竞争力，还强调了微调中学习率的调整对缓解错误语言生成问题的重要性。

Oct, 2023

大规模跨语言无监督表示学习

通过在 100 种语言上使用超过 2TB 的 CommonCrawl 数据对基于 Transformer 的掩蔽语言模型进行大规模的预训练，该模型命名为 XLM-R，显著优于 mBERT，在跨语言基准测试中实现了 + 14.6％和 + 13％的平均准确性和 F1 分数，并改善了 10 个低资源语言的准确性，显示了前景。

Nov, 2019

Multilingual BERT 的多语言能力如何？

研究表明，在零 - shot 跨语言模型转移方面，多语言 BERT（M-BERT）表现出惊人的性能，经过大量探究实验，证明转移甚至可以到不同文字的语言中，但它们会因特定的语言对而表现出系统缺陷。

Jun, 2019