Mar, 2020

CLUECorpus2020:用于预训练语言模型的大规模中文语料库

TL;DR本文介绍了 CLUE 组织的中文语料库 CLUECorpus2020,它是一个大规模的语料库,可直接用于自监督学习。它有 100G 原始语料库,其中包含 350亿个中文字符,可以用于语言生成和语言模型的预训练。该论文进行了小型和大型的语言理解实验,结果显示训练在此语料库上的模型可以在中文上取得出色的性能。作者还发布了一个新的中文词汇表和经过预训练的模型(大型和小型版本),并将其代码和数据集发布在 Github 上供社区使用。