EMNLPApr, 2021
记录大型 Webtext 语料库:以 Colossal Clean Crawled Corpus 为案例研究
Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus
Jesse Dodge, Maarten Sap, Ana Marasović, William Agnew, Gabriel Ilharco...
TL;DR本文介绍了 Colossal Clean Crawled Corpus ,并探讨数据来源、数据包含信息、筛选数据的影响,发现了机器翻译的生成文本和少数族裔个体的数据被过滤,最后提出了从互联网抓取信息构建大规模数据集的建议。