EMNLPApr, 2022

语言污染现象解释英语预训练模型的跨语言能力

TL;DR本文研究预训练语言模型在跨语言转移方面的表现,发现常见的英文预训练集中包含大量非英文文本,即使数量仅占不到 1%,也会导致大规模数据集中有数亿个外语词汇。作者还展示了即使是这些少量的非英文数据,也能够促进模型在目标语言上的跨语言转移,并且目标语言性能与预训练中见到的该语言数据量强相关。因此,我们认为在评估跨语言转移时,应该考虑到预训练模型不是真正的单语言模型。