Nov, 2019

CCNet: 从网络爬取数据中提取高质量单语数据集

TL;DR该论文描述了从 Common Crawl 中提取大量高质量单语数据集的自动管道,以用于各种语言的预训练文本表示,并增加了过滤步骤以选择接近于 Wikipedia 等高质量语料库的文档。