EMNLPSep, 2021

MDAPT: 单模型多语种领域自适应预训练

TL;DR本研究旨在探究利用领域自适应预训练的方法,结合多语言语料库来同时训练一个领域特定和多语言的语言模型,从而提高目标领域内不同语言任务的文本建模能力。研究结果表明,用这种模型在生物医学命名实体识别和金融句子分类等多个领域特定数据集上进行测试,可以比一般的多语言模型表现更好,接近于单语言情况下的性能表现。