深度双向跨语言 Transformer 在俄语语言上的应用

May, 2019

深度双向跨语言 Transformer 在俄语语言上的应用

Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language

Yuri Kuratov, Mikhail Arkhipov

TL;DR该论文介绍了适用于特定语言的多语言遮蔽语言模型的自适应方法，展示了从多语言模型到单语言模型的迁移学习可以显著提高阅读理解、情感分析等任务的性能，且多语言初始化的单语言模型可以大幅度降低训练时间。俄语的预训练模型已公开。

Abstract

The paper introduces methods of adaptation of multilingual masked language models for a specific language. pre-trained bidirectional language models show state-of-the-art performance on a wide range of tasks including reading comprehension, natural language inference, and →

multilingual masked language models pre-trained bidirectional language models transfer learning reading comprehension sentiment analysis

发现论文，激发创造

关于单语表示的跨语言转移性

新颖的跨语言转移学习方法 - 从单语言模型到新语言，通过学习一个新的词嵌入矩阵来实现，该方法与现有不需要共享词汇表或联合训练的最先进的无监督多语言模型的跨语言分类基准测试表现相似。

Oct, 2019

俄语的预训练 Transformer 语言模型系列

该论文介绍了一组 13 个基于编码器（ruBERT、ruRoBERTa、ruELECTRA）、解码器（ruGPT-3）和编码器 - 解码器（ruT5、FRED-T5）模型构建的俄语 Transformer 语言模型。通过预训练和发布这些专用的 Transformer 语言模型，希望扩大自然语言处理研究的范围，并为俄语语言的工业解决方案的开发提供支持。

Sep, 2023

BERT 用于芬兰语的多语言处理

本文主要介绍了采用预训练的深度学习语言模型用于自然语言处理的相关研究，特别是新型的 transformer-based BERT 模型。与其他大多采用英语等高资源语言的研究不同，本文侧重于针对冷门语言芬兰语的研究，探索基于多语言模型 Fine-tune 和基于芬兰语数据单独训练的模型的性能比较，实验结果表明后者的表现较好，成为当前芬兰语 POS 标注、NER 和依存分析任务的先进模型。

Dec, 2019

WikiBERT 模型：多语言深度迁移学习

本文介绍了一种从维基百科数据中创建特定语言 BERT 模型的简单完全自动化流程，并引入 42 个新的这种模型，以往缺乏专门深度神经语言模型的语言。我们使用现有的 UDify 解析器对这些模型的优点进行评估，并发现 UDify 使用的 WikiBERT 模型在平均性能方面优于使用 mBERT 的解析器，这些特定语言模型在某些语言方面表现出显著的改进，而在其他语言方面改进有限或性能下降。我们还提供了初步结果作为了解特定语言模型最有益的条件的第一步。

Jun, 2020

预训练语言模型中新兴的跨语言结构

通过研究多语言掩码语言建模问题，我们阐述了若干因素，即为何这些模型在跨语言转移方面如此有效，并证明了即使单语料库之间没有共享词汇，也可以进行转移，只需在多语言编码器顶层存在一些共享参数。同时，我们展示了来自不同语言、独立训练模型的表示可以很好地进行后期对齐，这些模型似乎自动发现和对齐了学习嵌入空间中的普遍潜在对称性。对于多语言掩码语言建模，这些对称性似乎是在联合训练过程中自动发现和对齐的。

Nov, 2019

多语言语言模型处理新语言的挑战：从 mBERT 不可见开始

通过比较多语言和单语言模型，本文表明了在大量的原始数据上使用基于预训练语言模型的迁移学习在处理未见过的语言中存在多种行为，其中一些语言能够从迁移学习中受益，而另一些则似乎不行，我们还发现这种无法传递的失败很大程度上与用于书写这些语言的字符的影响有关，转写这些语言可以极大地提高后续任务的大规模多语言语言模型的能力。

Oct, 2020

FinEst BERT 和 CroSloEngual BERT: 在多语言模型中，少即是多

本文介绍训练两个三语 Bert 模型 —— 一种适用于芬兰语、爱沙尼亚语和英语的 FinEst BERT 以及一种适用于克罗地亚语、斯洛文尼亚语和英语的 CroSloEngual BERT，并在多种单语和跨语言情况下使用 BERT 和 XLM-R 作为基线评估它们在多个下游任务上的性能，包括命名实体识别、词性标注和依存句法分析，结果表明这些模型能够提高大多数情况下所有任务的结果。

Jun, 2020

从英语到外语：迁移预训练语言模型

本文介绍一种在有限计算预算下将英文预训练模型转移到其他语言的方法，使用单个 GPU，一天内可以获得一种新的外语 BERT 基础模型，并在六种语言上展示该方法在零样本任务上比多语言 BERT 更为有效的结果。

Feb, 2020

语言无关的 BERT 句子嵌入

本研究旨在通过探究多种单语和跨语言表示学习方法，如掩码语言建模，翻译语言建模和双编码器翻译排名等，结合预训练的多语言模型来学习多语言句子嵌入，并成功将其用于多语言文本检索和机器翻译任务中。

Jul, 2020

多语种文本风格转换的语言和任务自适应多语种预训练

本研究利用预训练的 seq2seq 模型 mBART 进行多语种文本风格转换，使用机器翻译数据和英文句子得到了三种目标语言的最新成果。此外，考虑到平行数据的普遍稀缺性，我们提出了一个模块化方法，包括两种针对语言和任务适应的训练策略，实现竞争性性能，适用于其他风格转换任务以及其他语言。

Mar, 2022