罗马尼亚BERT的诞生

Sep, 2020

The birth of Romanian BERT

Stefan Daniel Dumitrescu, Andrei-Marius Avram, Sampo Pyysalo

TL;DR介绍了罗马尼亚BERT，这是第一个纯罗马尼亚的基于Transformer的语言模型，并介绍了语料库的组成和清理、模型训练过程以及在各种罗马尼亚数据集上的评估。

Abstract

large-scale pretrained language models have become ubiquitous in Natural Language Processing. However, most of these models are available either in high-resource languages, in particular English, or as multilingual models that compromise performance on individual languages for coverage