WanJuan-CC:安全且高质量的开源英语网络文本数据集
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每个文本分配了一个质量评分,从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。
Nov, 2023
该论文描述了从 Common Crawl 中提取大量高质量单语数据集的自动管道,以用于各种语言的预训练文本表示,并增加了过滤步骤以选择接近于 Wikipedia 等高质量语料库的文档。
Nov, 2019
介绍了 DepCC,这是迄今为止最大的英文语言分析语料库,包括 365 万份文档,由 Common Crawl 项目的 2520 亿个符记和 75 亿个命名实体出现组成,可以通过一些应用程序使用,例如基于句法的词嵌入训练,信息提取和问题回答等。该语料库构建了所有句子及其语言元数据的索引,可以快速搜索整个语料库,并在动词相似性任务上证明了其效用,显示训练在我们此语料库上的分布模型比维基百科的小语料库上训练的模型的效果更好。该分布模型在 SimVerb3500 数据集上优于基于小语料库训练的动词相似性的最新模型。
Oct, 2017
本文介绍了 “Wan Juan” 数据集,一个大规模多模态数据集,包括中英文数据、文本、图像文本和视频模态,总容量超过 2TB。该数据集被用于训练 InternLM 模型,在与类似规模的模型相比的多维评估中展现出显著优势。
Aug, 2023
本文探讨了当前神经语言模型的成功主要归功于训练语料库规模的不断增大。但是,我们扩大了对 Common Crawl 的探索,发现即使在过滤程序之后,它仍然包含大量不良内容,包括仇恨言论和性暗示内容。我们对这些内容对语言模型的潜在影响进行了讨论,最后提出了未来的研究方向和更加慎重的语料库收集和分析方法。
May, 2021
提出一种高效管道,通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库,有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。
Apr, 2023
通过使用 Common Crawl 作为带注释的地理空间数据的来源,该研究论文提出了一个高效的流水线来从 CC 中的 GPX 文件中提取带注释的用户生成轨迹,并生成了包含 1,416 对人工书写描述和 MultiLineString 矢量数据的多模态数据集,该数据集可用于研究人们的室外活动模式、人们谈论自己室外体验的方式,以及轨迹生成或轨迹注释模型的开发。
May, 2024
通过评估连贯性、凝聚性和复杂性三个基本语言维度,我们系统性地衡量了长文本的质量,并引入了一套度量旨在评估长文本质量的指标,包括统计和预训练语言模型为基础的指标。利用这些指标,我们提出了 LongWanjuan,一个专门为增强语言模型在长文本任务上训练而设计的双语数据集,包含超过 160B 的标记。在 LongWanjuan 中,我们将长文本划分为整体性、聚合性和混乱性三种类型,从而能够对长文本质量进行详细分析。此外,我们设计了一种数据混合配方,策略性地平衡了 LongWanjuan 中不同类型的长文本,从而显著提高了模型在长文本任务上的表现。
Feb, 2024
使用众包的方法,我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对(平行顶级页面对),并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后,我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix(12.4M)上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小,但我们发现这两个模型的准确度相当,证实了使用众包进行平行数据的网络挖掘是可行的。
May, 2024