Oct, 2020

mT5: 一种大规模多语言预训练文本到文本的转换器

TL;DR本文介绍了 mT5,这是 T5 的多语言变体,基于新的基于 Common Crawl 的数据集进行预训练,涵盖 101 种语言,并展示了在许多多语言基准测试中的最新性能。我们还描述了一种简单的技术,用于在零 - shot 设置中防止 “意外翻译”。