探索性分析大容量网络语料库
本文介绍了 Colossal Clean Crawled Corpus ,并探讨数据来源、数据包含信息、筛选数据的影响,发现了机器翻译的生成文本和少数族裔个体的数据被过滤,最后提出了从互联网抓取信息构建大规模数据集的建议。
Apr, 2021
介绍了 DepCC,这是迄今为止最大的英文语言分析语料库,包括 365 万份文档,由 Common Crawl 项目的 2520 亿个符记和 75 亿个命名实体出现组成,可以通过一些应用程序使用,例如基于句法的词嵌入训练,信息提取和问题回答等。该语料库构建了所有句子及其语言元数据的索引,可以快速搜索整个语料库,并在动词相似性任务上证明了其效用,显示训练在我们此语料库上的分布模型比维基百科的小语料库上训练的模型的效果更好。该分布模型在 SimVerb3500 数据集上优于基于小语料库训练的动词相似性的最新模型。
Oct, 2017
本文研究了语料库创建决策对大型多语言地理 Web 语料库的影响。通过从 Common Crawl 获取的 4270 亿个词的语料库,使用三种方法改善代表特定语言国家对 (如新西兰英语) 的子语料库质量:(i) 独立语言识别系统的一致性,(ii) 基于哈希的去重,以及 (iii) 特定位置的异常检测。然后,通过使用语料库相似度度量将每个结果语料库与基准数据集进行比较,评估每个步骤对语言级别和国家级别的影响。目标是了解上游数据清理决策对下游语料库的影响,重点关注代表性不足的语言和人口。评估结果表明,每个清理阶段都提高了子语料库的有效性,但这种改进在语言和人口之间分布不均匀。该研究结果显示了标准语料库创建技术可能会无意中排除代表性不足的人口。
Mar, 2024
本文探讨了当前神经语言模型的成功主要归功于训练语料库规模的不断增大。但是,我们扩大了对 Common Crawl 的探索,发现即使在过滤程序之后,它仍然包含大量不良内容,包括仇恨言论和性暗示内容。我们对这些内容对语言模型的潜在影响进行了讨论,最后提出了未来的研究方向和更加慎重的语料库收集和分析方法。
May, 2021
提出一种高效管道,通过使用 Common Crawl 在因特网上创建大规模、多语种的 PDF 文件语料库,有助于语言模型的预训练。数据集和工具为研究者提供了开发更好的多语言语言模型的机会。
Apr, 2023
我们提出了 EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText,其中包含 1.42 TB 的文本,并为每个文本分配了一个质量评分,从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。
Nov, 2023
通过从 Common Crawl 档案中提取和精炼文本,该研究构建了一个大型的日语网页语料库,用于训练日语大型语言模型。该语料库包含大约 3121 亿个字符(约 1.73 亿页),是目前可用的日语训练语料库中最大的,超过了 CC-100、mC4 和 OSCAR23.10。通过对基于 Llama 2 的不断预训练,并在日语基准数据集上取得一致(6.6-8.1 分)的改善,该研究证明了所提供语料库对 Llama 2 的改善效果是已有语料库中最大的。
Apr, 2024
ClueWeb22 是一个高质量的、大规模的 Web 语料库,旨在支持信息系统、检索 - 增强 AI 系统和模型预训练等领域的学术和工业研究。
Nov, 2022