从 CommonCrawl 构建 Web 规模的依赖解析语料库

Oct, 2017

从 CommonCrawl 构建 Web 规模的依赖解析语料库

Building a Web-Scale Dependency-Parsed Corpus from CommonCrawl

Alexander Panchenko, Eugen Ruppert, Stefano Faralli, Simone Paolo Ponzetto, Chris Biemann

TL;DR介绍了 DepCC，这是迄今为止最大的英文语言分析语料库，包括 365 万份文档，由 Common Crawl 项目的 2520 亿个符记和 75 亿个命名实体出现组成，可以通过一些应用程序使用，例如基于句法的词嵌入训练，信息提取和问题回答等。该语料库构建了所有句子及其语言元数据的索引，可以快速搜索整个语料库，并在动词相似性任务上证明了其效用，显示训练在我们此语料库上的分布模型比维基百科的小语料库上训练的模型的效果更好。该分布模型在 SimVerb3500 数据集上优于基于小语料库训练的动词相似性的最新模型。

Abstract

We present depcc, the largest-to-date linguistically analyzed corpus in English including 365 million documents, composed of 252 billion tokens and 7.5 billion of →

depcc linguistically analyzed corpus named entity occurrences dependency parser verb similarity task

发现论文，激发创造

探索性分析大容量网络语料库

本研究使用 MapReduce 对 Common Crawl Corpus 进行了初步分析，总结出语言分布和 HTML 版本是该数据集中尚未被研究的网页特征之一。

Sep, 2014

从 Web 爬虫数据构建高质量视觉丰富文档的语料库

提出一种高效管道，通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库，有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。

Apr, 2023

WanJuan-CC：安全且高质量的开源英语网络文本数据集

该研究介绍了万卷 - CC（WanJuan-CC），一个安全且高质量的开源英文网络文本数据集，用于语言模型的大规模预训练数据集构建。

Feb, 2024

记录大型 Webtext 语料库：以 Colossal Clean Crawled Corpus 为案例研究

本文介绍了 Colossal Clean Crawled Corpus ，并探讨数据来源、数据包含信息、筛选数据的影响，发现了机器翻译的生成文本和少数族裔个体的数据被过滤，最后提出了从互联网抓取信息构建大规模数据集的建议。

Apr, 2021

构建大规模的日语网络语料库用于大型语言模型

通过从 Common Crawl 档案中提取和精炼文本，该研究构建了一个大型的日语网页语料库，用于训练日语大型语言模型。该语料库包含大约 3121 亿个字符（约 1.73 亿页），是目前可用的日语训练语料库中最大的，超过了 CC-100、mC4 和 OSCAR23.10。通过对基于 Llama 2 的不断预训练，并在日语基准数据集上取得一致（6.6-8.1 分）的改善，该研究证明了所提供语料库对 Llama 2 的改善效果是已有语料库中最大的。

Apr, 2024

JParaCrawl v3.0：大规模英日平行语料库

本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0，其包括超过 2100 万个独特的平行句对，证明它可以提高各种领域机器翻译模型的准确性，并将在将来公开发布。

Feb, 2022

验证和探索大规模地理文集

本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库，使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量：(i) 独立语言识别系统的一致性，(ii) 基于哈希的去重，以及 (iii) 特定位置的异常检测。然后，通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较，评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响，重点关注代表性不足的语言和人口。评估结果表明，每个清理阶段都提高了子语料库的有效性，但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。

Mar, 2024

JParaCrawl：大规模基于 Web 的英日平行语料库

本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法，该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。

Nov, 2019

基于大规模数据集的实用中文依存句法分析器

本研究介绍了 Baidu 依存分析器（DDParser），一个新的中文依存分析器，它是基于大规模手动标注数据集 ——Baidu 中文树库（DuCTB）训练的。DDParser 使用基于图的双仿射解析器，并对中文数据集的特征进行了调整，采用两个测试集测试，取得了 92.9％和 86.9％的标记连接分数（LAS），并取得了最先进的结果，并在 https URL 公开发布。

Sep, 2020

从零开始的通用依存句法分析

该论文介绍了 Stanford 的 CoNLL 2018 UD 共享任务中的系统，这是一个完整的神经管道系统，可以将原始文本作为输入，并执行共享任务所需的所有任务，从分词和句子分割到词性标注和依赖关系解析，并通过广泛的消融研究展示了不同的模型组件的有效性。

Jan, 2019