从 Web 爬虫数据构建高质量视觉丰富文档的语料库

Apr, 2023

从 Web 爬虫数据构建高质量视觉丰富文档的语料库

CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data

Michał Turski, Tomasz Stanisławek, Karol Kaczmarek, Paweł Dyda, Filip Graliński

TL;DR提出一种高效管道，通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库，有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。

Abstract

In recent years, the field of document understanding has progressed a lot. A significant part of this progress has been possible thanks to the use of language models pretrained on large amounts of documents. Howe

document understanding language models multilingual corpus pdf files language model pretraining

发现论文，激发创造

CCNet: 从网络爬取数据中提取高质量单语数据集

该论文描述了从 Common Crawl 中提取大量高质量单语数据集的自动管道，以用于各种语言的预训练文本表示，并增加了过滤步骤以选择接近于 Wikipedia 等高质量语料库的文档。

Nov, 2019

朝着更干净的面向文档的多语言爬行语料库

本文介绍了通过对现有的多语言网页语料库 OSCAR 进行自动注解和改进，以获得更适合于预训练大型生成语言模型的新版本的方法。

Jan, 2022

记录大型 Webtext 语料库：以 Colossal Clean Crawled Corpus 为案例研究

本文介绍了 Colossal Clean Crawled Corpus ，并探讨数据来源、数据包含信息、筛选数据的影响，发现了机器翻译的生成文本和少数族裔个体的数据被过滤，最后提出了从互联网抓取信息构建大规模数据集的建议。

Apr, 2021

一瞥即知质量：对多语言网络爬虫数据集的审计

本文主要旨在探究如何评估及提高多语料库的质量，并针对少资源语言建议相关技术，同时也讨论低质量数据发布所可能带来的潜在风险。

Mar, 2021

从 CommonCrawl 构建 Web 规模的依赖解析语料库

介绍了 DepCC，这是迄今为止最大的英文语言分析语料库，包括 365 万份文档，由 Common Crawl 项目的 2520 亿个符记和 75 亿个命名实体出现组成，可以通过一些应用程序使用，例如基于句法的词嵌入训练，信息提取和问题回答等。该语料库构建了所有句子及其语言元数据的索引，可以快速搜索整个语料库，并在动词相似性任务上证明了其效用，显示训练在我们此语料库上的分布模型比维基百科的小语料库上训练的模型的效果更好。该分布模型在 SimVerb3500 数据集上优于基于小语料库训练的动词相似性的最新模型。

Oct, 2017

语料库转换服务：一个用于批量处理文档的机器学习平台

本研究论文介绍了一种名为 Corpus Conversion Service 的模块化云平台，用于海量文档的处理、文本挖掘和机器学习算法的训练，最终将任何类型的 PDF 或位图文档转换为结构化内容表示格式，且能够达到 99％的准确度，并已在 IBM 内部基础设施上部署，并为超过 250 个活跃用户提供服务。

May, 2018

低资源语言的语料库品质真的很重要吗？

通过对巴斯克语的表征学习进行案例研究，我们探索了精细爬取作为替代 CommonCrawl 的方法。尽管我们的新语料库质量更高，而且在巴斯克语广泛的语料库中取得了类似的结果，但我们的工作表明，低资源语言的 NLU 性能不是主要受到数据质量的限制，而是与语料库的大小和领域覆盖等其他因素有更重要的关系。

Mar, 2022

验证和探索大规模地理文集

本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库，使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量：(i) 独立语言识别系统的一致性，(ii) 基于哈希的去重，以及 (iii) 特定位置的异常检测。然后，通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较，评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响，重点关注代表性不足的语言和人口。评估结果表明，每个清理阶段都提高了子语料库的有效性，但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。

Mar, 2024

CC 查询：从公共语料库中发掘大规模领域特定知识

通过大语言模型引导的数据收集方法 Query of CC，我们构建了高质量的知识数据集 Knowledge Pile，包括数学和知识相关推理能力测试，并开源了我们的数据集和代码，为学术界提供有价值的支持。

Jan, 2024

公共网络抓取语料库中的不良内容初步分析

本文探讨了当前神经语言模型的成功主要归功于训练语料库规模的不断增大。但是，我们扩大了对 Common Crawl 的探索，发现即使在过滤程序之后，它仍然包含大量不良内容，包括仇恨言论和性暗示内容。我们对这些内容对语言模型的潜在影响进行了讨论，最后提出了未来的研究方向和更加慎重的语料库收集和分析方法。

May, 2021