Nov, 2019
CCNet: 从网络爬取数据中提取高质量单语数据集
CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data
Guillaume Wenzek, Marie-Anne Lachaux, Alexis Conneau, Vishrav Chaudhary, Francisco Guzmán...
TL;DR该论文描述了从 Common Crawl 中提取大量高质量单语数据集的自动管道,以用于各种语言的预训练文本表示,并增加了过滤步骤以选择接近于 Wikipedia 等高质量语料库的文档。