朝着更干净的面向文档的多语言爬行语料库

Jan, 2022

朝着更干净的面向文档的多语言爬行语料库

Towards a Cleaner Document-Oriented Multilingual Crawled Corpus

Julien Abadji, Pedro Ortiz Suarez, Laurent Romary, Benoît Sagot

TL;DR本文介绍了通过对现有的多语言网页语料库 OSCAR 进行自动注解和改进，以获得更适合于预训练大型生成语言模型的新版本的方法。

Abstract

The need for raw large raw corpora has dramatically increased in recent years with the introduction of transfer learning and semi-supervised lear

raw corpora transfer learning semi-supervised learning web crawling generative language models

发现论文，激发创造

一瞥即知质量：对多语言网络爬虫数据集的审计

本文主要旨在探究如何评估及提高多语料库的质量，并针对少资源语言建议相关技术，同时也讨论低质量数据发布所可能带来的潜在风险。

Mar, 2021

语言模型是否关心文本质量？评估跨越 11 种语言的网络爬取语料库

经过评估，我们发现大规模网络爬取的语料库对训练语言模型的质量并不起重要作用。

Mar, 2024

CCNet: 从网络爬取数据中提取高质量单语数据集

该论文描述了从 Common Crawl 中提取大量高质量单语数据集的自动管道，以用于各种语言的预训练文本表示，并增加了过滤步骤以选择接近于 Wikipedia 等高质量语料库的文档。

Nov, 2019

从干净的爬取语料开始 —— 打造优秀语言模型的秘诀

本文介绍了利用冰岛语通用爬虫语料库进行训练的几种语言模型，包括 IceBERT，这些模型在诸多下游任务中均达到了最优表现。通过这些努力，我们证明了经过适当清理的网络爬虫语料库足以实现自然语言处理应用的最佳效果，并且说明使用现有的多语言模型初始化可以在某些下游任务中达到最先进的结果。

Jan, 2022

记录大型 Webtext 语料库：以 Colossal Clean Crawled Corpus 为案例研究

本文介绍了 Colossal Clean Crawled Corpus ，并探讨数据来源、数据包含信息、筛选数据的影响，发现了机器翻译的生成文本和少数族裔个体的数据被过滤，最后提出了从互联网抓取信息构建大规模数据集的建议。

Apr, 2021

从 Web 爬虫数据构建高质量视觉丰富文档的语料库

提出一种高效管道，通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库，有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。

Apr, 2023

esCorpius: 一份庞大的西班牙语爬虫语料库

通过使用多达 1 PB 的 Common Crawl 数据，我们提出了 esCorpius，一个高质量的西班牙网络爬取语料库，利用了新颖的高度并行的清理管道和多种去重机制，以确保文档和段落边界的完整性，并遵守欧盟法规。

Jun, 2022

mOSCAR：一个大规模的多语言和多模态的文档级语料库

Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.

Jun, 2024

中低资源语言的上下文化词向量的单语方法

本文使用多语言 OSCAR 语料库训练单语境化词嵌入 (ELMo) 以进行词性标注和解析任务。研究结果表明，相比于基于 Wikipedia 的嵌入，OSCAR 训练的嵌入在五种中资源语言中表现更好，并超越了多语言 Wikipedia 嵌入的性能。

Jun, 2020

低资源语言的语料库品质真的很重要吗？

通过对巴斯克语的表征学习进行案例研究，我们探索了精细爬取作为替代 CommonCrawl 的方法。尽管我们的新语料库质量更高，而且在巴斯克语广泛的语料库中取得了类似的结果，但我们的工作表明，低资源语言的 NLU 性能不是主要受到数据质量的限制，而是与语料库的大小和领域覆盖等其他因素有更重要的关系。

Mar, 2022