ClueWeb22: 100 亿个带视觉和语义信息的网络文档

Nov, 2022

ClueWeb22: 100 亿个带视觉和语义信息的网络文档

ClueWeb22: 10 Billion Web Documents with Visual and Semantic Information

Arnold Overwijk, Chenyan Xiong, Xiao Liu, Cameron VandenBerg, Jamie Callan

TL;DRClueWeb22 是一个高质量的、大规模的 Web 语料库，旨在支持信息系统、检索 - 增强 AI 系统和模型预训练等领域的学术和工业研究。

Abstract

clueweb22, the newest iteration of the ClueWeb line of datasets, provides 10 billion web pages affiliated with rich information. Its design was influenced by the need for a high quality, large scale web corpus to

clueweb22 web corpus information systems retrieval-augmented ai systems model pretraining

发现论文，激发创造

探索性分析大容量网络语料库

本研究使用 MapReduce 对 Common Crawl Corpus 进行了初步分析，总结出语言分布和 HTML 版本是该数据集中尚未被研究的网页特征之一。

Sep, 2014

基于 Web 的视觉语料库构建技术报告，用于视觉文档理解

该论文介绍了一个名为 Web-based Visual Corpus Builder 的数据集生成引擎，可以从原始 Wikipedia HTML 转储中准确构建大规模的视觉语料库，并验证其生成的数据可以覆盖广泛的上下文和知识，成为构建强大的视觉文档理解（VDU）骨干的有力工具。

Nov, 2022

WikiWeb2M：一份基于页面级别的多模态 Wikipedia 数据集

通过保留完整的图像、文本和结构数据，Wikipedia Webpage 2M（WikiWeb2M）套件旨在研究多模式网页理解，如页面描述生成、部分摘要和上下文图像说明。

May, 2023

WebVision 数据库：从网络数据中进行视觉学习和理解

本研究基于收集自网络的大规模嘈杂数据对学习视觉识别模型进行了探究。我们构建了一个名为 WebVision 的新数据库，其中包含了超过 240 万张与 ILSVRC 2012 基准数据集的 1,000 个语义概念相关的查询生成的网络图像，并收集了元信息（例如标题，描述，标签等）。通过这个数据库，我们发现网络图像可以用于训练良好的深度 CNN 模型，且该模型的泛化能力甚至优于 ILSVRC 2012 数据集训练的模型。此外，我们也发现了一个数据集偏见问题，即在视觉领域自适应方面存在一些问题。这个新的 WebVision 数据库及其相关研究对于利用网络数据最小化监督学习最先进的视觉模型具有重要的价值。

Aug, 2017

CLUECorpus2020：用于预训练语言模型的大规模中文语料库

本文介绍了 CLUE 组织的中文语料库 CLUECorpus2020，它是一个大规模的语料库，可直接用于自监督学习。它有 100G 原始语料库，其中包含 350 亿个中文字符，可以用于语言生成和语言模型的预训练。该论文进行了小型和大型的语言理解实验，结果显示训练在此语料库上的模型可以在中文上取得出色的性能。作者还发布了一个新的中文词汇表和经过预训练的模型（大型和小型版本），并将其代码和数据集发布在 Github 上供社区使用。

Mar, 2020

大规模网络数据的高效和有效垃圾邮件过滤和重新排序

本文介绍了一种使用自然语言处理技术针对 ClueWeb09 数据集进行垃圾信息过滤与提高信息检索效果的方法。

Apr, 2010

Quasar: 通过搜索和阅读获取问题回答的数据集

该研究提出了两个数据集，用于评估自然语言查询的理解和从大量文本语料库中提取答案的系统。Quasar-S 数据集由 37000 个填空式查询构成，Quasar-T 数据集由 43000 个开放领域的问答问题和它们的答案组成。我们将这些数据集作为事实型问题回答的两个相关子任务的挑战，并评估了几个基线模型，并显示它们在 Quasar-S 和 - T 方面落后于人类表现 16.4％和 32.1％。

Jul, 2017

从 CommonCrawl 构建 Web 规模的依赖解析语料库

介绍了 DepCC，这是迄今为止最大的英文语言分析语料库，包括 365 万份文档，由 Common Crawl 项目的 2520 亿个符记和 75 亿个命名实体出现组成，可以通过一些应用程序使用，例如基于句法的词嵌入训练，信息提取和问题回答等。该语料库构建了所有句子及其语言元数据的索引，可以快速搜索整个语料库，并在动词相似性任务上证明了其效用，显示训练在我们此语料库上的分布模型比维基百科的小语料库上训练的模型的效果更好。该分布模型在 SimVerb3500 数据集上优于基于小语料库训练的动词相似性的最新模型。

Oct, 2017

记录大型 Webtext 语料库：以 Colossal Clean Crawled Corpus 为案例研究

本文介绍了 Colossal Clean Crawled Corpus ，并探讨数据来源、数据包含信息、筛选数据的影响，发现了机器翻译的生成文本和少数族裔个体的数据被过滤，最后提出了从互联网抓取信息构建大规模数据集的建议。

Apr, 2021

走向量子万维网

该研究提出了一种量子模型来解释文本集合中的语义，将量子物理学构造运用在语言学和计算科学中，提出 Web 的量子模型 QWeb，并强调该模型要解释观察到的文字相关性，包括上下文和干涉效应。

Mar, 2017