ACLMar, 2022

通过基于词典的适应扩展预训练模型以覆盖数千种更多语言

TL;DR本文探究了利用双语词典作为文本资源,从而使得多语言预训练模型的性能不再依赖于单一语种下的文本数据,通过不同策略合成文本或标注数据,并与单语文本或平行文本相结合,以提高在三个任务上 19 种欠发达语言的性能,为千余种使用 NLP 技术的欠代表语种提供了思路。