WanJuan-CC：安全且高质量的开源英语网络文本数据集

Feb, 2024

WanJuan-CC：安全且高质量的开源英语网络文本数据集

WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset

Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning...

TL;DR该研究介绍了万卷 - CC（WanJuan-CC），一个安全且高质量的开源英文网络文本数据集，用于语言模型的大规模预训练数据集构建。

Abstract

This paper presents wanjuan-cc, a safe and high-quality open-sourced English webtext dataset derived from common crawl data. The study addresses the challenges of constructing large-scale pre-training datasets fo

wanjuan-cc english webtext dataset common crawl data language models data quality

发现论文，激发创造

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

CCNet: 从网络爬取数据中提取高质量单语数据集

该论文描述了从 Common Crawl 中提取大量高质量单语数据集的自动管道，以用于各种语言的预训练文本表示，并增加了过滤步骤以选择接近于 Wikipedia 等高质量语料库的文档。

Nov, 2019

从 CommonCrawl 构建 Web 规模的依赖解析语料库

介绍了 DepCC，这是迄今为止最大的英文语言分析语料库，包括 365 万份文档，由 Common Crawl 项目的 2520 亿个符记和 75 亿个命名实体出现组成，可以通过一些应用程序使用，例如基于句法的词嵌入训练，信息提取和问题回答等。该语料库构建了所有句子及其语言元数据的索引，可以快速搜索整个语料库，并在动词相似性任务上证明了其效用，显示训练在我们此语料库上的分布模型比维基百科的小语料库上训练的模型的效果更好。该分布模型在 SimVerb3500 数据集上优于基于小语料库训练的动词相似性的最新模型。

Oct, 2017

万卷：推动英文和中文大型模型的全面多模态数据集

本文介绍了 “Wan Juan” 数据集，一个大规模多模态数据集，包括中英文数据、文本、图像文本和视频模态，总容量超过 2TB。该数据集被用于训练 InternLM 模型，在与类似规模的模型相比的多维评估中展现出显著优势。

Aug, 2023

一瞥即知质量：对多语言网络爬虫数据集的审计

本文主要旨在探究如何评估及提高多语料库的质量，并针对少资源语言建议相关技术，同时也讨论低质量数据发布所可能带来的潜在风险。

Mar, 2021

公共网络抓取语料库中的不良内容初步分析

本文探讨了当前神经语言模型的成功主要归功于训练语料库规模的不断增大。但是，我们扩大了对 Common Crawl 的探索，发现即使在过滤程序之后，它仍然包含大量不良内容，包括仇恨言论和性暗示内容。我们对这些内容对语言模型的潜在影响进行了讨论，最后提出了未来的研究方向和更加慎重的语料库收集和分析方法。

May, 2021

从 Web 爬虫数据构建高质量视觉丰富文档的语料库

提出一种高效管道，通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库，有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。

Apr, 2023

CC-GPX: 从 Common Crawl 抽取高质量注释的地理空间数据

通过使用 Common Crawl 作为带注释的地理空间数据的来源，该研究论文提出了一个高效的流水线来从 CC 中的 GPX 文件中提取带注释的用户生成轨迹，并生成了包含 1,416 对人工书写描述和 MultiLineString 矢量数据的多模态数据集，该数据集可用于研究人们的室外活动模式、人们谈论自己室外体验的方式，以及轨迹生成或轨迹注释模型的开发。

May, 2024

LongWanjuan: 往长文本质量的系统测量

通过评估连贯性、凝聚性和复杂性三个基本语言维度，我们系统性地衡量了长文本的质量，并引入了一套度量旨在评估长文本质量的指标，包括统计和预训练语言模型为基础的指标。利用这些指标，我们提出了 LongWanjuan，一个专门为增强语言模型在长文本任务上训练而设计的双语数据集，包含超过 160B 的标记。在 LongWanjuan 中，我们将长文本划分为整体性、聚合性和混乱性三种类型，从而能够对长文本质量进行详细分析。此外，我们设计了一种数据混合配方，策略性地平衡了 LongWanjuan 中不同类型的长文本，从而显著提高了模型在长文本任务上的表现。

Feb, 2024

利用众包进行网络挖掘的日中平行语料库

使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

May, 2024