Oct, 2020

mT5: 一种大规模多语言预训练文本到文本的转换器

TL;DR本文介绍了mT5,这是T5的多语言变体,基于新的基于Common Crawl的数据集进行预训练,涵盖101种语言,并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术,用于在零-shot设置中防止“意外翻译”。