Sep, 2023

MADLAD-400:一个多语言和文档级别的大型审计数据集

TL;DR我们介绍了 MADLAD-400,这是一个人工审核的、基于 CommonCrawl 的通用领域 3T 令牌单语数据集,涵盖 419 种语言。我们讨论了 MADLAD-400 自我审核揭示的局限性以及数据审核在数据集创建过程中的作用。然后,我们使用公开可用的数据训练和发布了一个具有 1070 亿个参数的多语言机器翻译模型,涵盖了超过 450 种语言,并发现它与规模更大的模型相竞争,在不同领域报告了结果。此外,我们训练了一个具有 80 亿个参数的语言模型,并评估了在几次翻译中的结果。我们将基准模型提供给研究界。