EMNLPApr, 2021

记录大型 Webtext 语料库:以 Colossal Clean Crawled Corpus 为案例研究

TL;DR本文介绍了 Colossal Clean Crawled Corpus ,并探讨数据来源、数据包含信息、筛选数据的影响,发现了机器翻译的生成文本和少数族裔个体的数据被过滤,最后提出了从互联网抓取信息构建大规模数据集的建议。