记录大型 Webtext 语料库：以 Colossal Clean Crawled Corpus 为案例研究

EMNLPApr, 2021

记录大型 Webtext 语料库：以 Colossal Clean Crawled Corpus 为案例研究

Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus

Jesse Dodge, Maarten Sap, Ana Marasović, William Agnew, Gabriel Ilharco...

TL;DR本文介绍了 Colossal Clean Crawled Corpus ，并探讨数据来源、数据包含信息、筛选数据的影响，发现了机器翻译的生成文本和少数族裔个体的数据被过滤，最后提出了从互联网抓取信息构建大规模数据集的建议。

Abstract

large language models have led to remarkable progress on many nlp tasks, and researchers are turning to ever-larger text corpora to train them. Some of the largest corpora available are made by scraping significa

large language models nlp tasks colossal clean crawled corpus machine-generated text web-scale datasets

发现论文，激发创造

探索性分析大容量网络语料库

本研究使用 MapReduce 对 Common Crawl Corpus 进行了初步分析，总结出语言分布和 HTML 版本是该数据集中尚未被研究的网页特征之一。

Sep, 2014

CCNet: 从网络爬取数据中提取高质量单语数据集

该论文描述了从 Common Crawl 中提取大量高质量单语数据集的自动管道，以用于各种语言的预训练文本表示，并增加了过滤步骤以选择接近于 Wikipedia 等高质量语料库的文档。

Nov, 2019

朝着更干净的面向文档的多语言爬行语料库

本文介绍了通过对现有的多语言网页语料库 OSCAR 进行自动注解和改进，以获得更适合于预训练大型生成语言模型的新版本的方法。

Jan, 2022

使用网络数据，仅限于网络数据超越精选语料库的 Falcon LLM 的 RefinedWeb 数据集

本文表明，即使仅使用经过过滤和去重的网络数据，也可以训练出性能良好的大型语言模型，其训练数据量可以达到万亿级别，不需要过多地依赖于高质量的非网络数据的训练数据集。

Jun, 2023

公共网络抓取语料库中的不良内容初步分析

本文探讨了当前神经语言模型的成功主要归功于训练语料库规模的不断增大。但是，我们扩大了对 Common Crawl 的探索，发现即使在过滤程序之后，它仍然包含大量不良内容，包括仇恨言论和性暗示内容。我们对这些内容对语言模型的潜在影响进行了讨论，最后提出了未来的研究方向和更加慎重的语料库收集和分析方法。

May, 2021

从互联网自动创建低资源语言文本语料库：以瑞士德语为例

SwissCrawl 是目前最大的瑞士德语文本语料库之一，是使用自定义网络抓取工具生成的。它展示了如何利用公开的网络页面构建全面的文本语料库，在自然语言处理方面非常重要。在实验评估中，我们发现使用新语料库可以显著提高语言建模任务的性能。为了捕获新内容，我们的方法会持续不断地运行以增加语料库的文本。

Nov, 2019

从 Web 爬虫数据构建高质量视觉丰富文档的语料库

提出一种高效管道，通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库，有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。

Apr, 2023

一瞥即知质量：对多语言网络爬虫数据集的审计

本文主要旨在探究如何评估及提高多语料库的质量，并针对少资源语言建议相关技术，同时也讨论低质量数据发布所可能带来的潜在风险。

Mar, 2021

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

语言模型是否关心文本质量？评估跨越 11 种语言的网络爬取语料库

经过评估，我们发现大规模网络爬取的语料库对训练语言模型的质量并不起重要作用。

Mar, 2024