构建大规模的日语网络语料库用于大型语言模型

Apr, 2024

构建大规模的日语网络语料库用于大型语言模型

Building a Large Japanese Web Corpus for Large Language Models

Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi...

TL;DR通过从 Common Crawl 档案中提取和精炼文本，该研究构建了一个大型的日语网页语料库，用于训练日语大型语言模型。该语料库包含大约 3121 亿个字符（约 1.73 亿页），是目前可用的日语训练语料库中最大的，超过了 CC-100、mC4 和 OSCAR23.10。通过对基于 Llama 2 的不断预训练，并在日语基准数据集上取得一致（6.6-8.1 分）的改善，该研究证明了所提供语料库对 Llama 2 的改善效果是已有语料库中最大的。

Abstract

Open japanese large language models (LLMs) have been trained on the Japanese portions of corpora such as CC-100, mC4, and OSCAR. However, these corpora were not created for the quality of Japanese texts. This stu

japanese large language models web corpus training corpora quality benchmark datasets

发现论文，激发创造

mOSCAR：一个大规模的多语言和多模态的文档级语料库

Multimodal Large Language Models (mLLMs) that are trained on caption-like and interleaved text-image data, such as mOSCAR, show improved in-context learning capabilities, boost in few-shot learning performance across various multilingual image-text tasks and benchmarks, and address the limitation of current multilingual and multimodal datasets.

Jun, 2024

语言模型是否关心文本质量？评估跨越 11 种语言的网络爬取语料库

经过评估，我们发现大规模网络爬取的语料库对训练语言模型的质量并不起重要作用。

Mar, 2024

JParaCrawl v3.0：大规模英日平行语料库

本文介绍了一个新的基于网络的英日平行语料库 JParaCrawl v3.0，其包括超过 2100 万个独特的平行句对，证明它可以提高各种领域机器翻译模型的准确性，并将在将来公开发布。

Feb, 2022

JParaCrawl：大规模基于 Web 的英日平行语料库

本文介绍了构建并通过相关实验验证了英日平行语料库 JParaCrawl 的优越性以及使用其进行预训练和微调的方法，该方法在特定领域上可达到实例训练模型的水平并缩短训练时间。

Nov, 2019

日语聊天数据集的构建及其方法论

该研究构建了一个日语聊天数据集，用于调整大型语言模型（LLMs），结果显示该数据集有可能对 LLMs 有利，但也揭示了在非英语语言中构建 LLMs 所面临的一些困难。

May, 2023

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

利用众包进行网络挖掘的日中平行语料库

使用众包的方法，我们从包含平行文档的双语网站收集了超过 10,000 个 URL 对（平行顶级页面对），并从这些网站创建了一个包含 4.6M 个句对的日语 - 中文平行语料库。我们使用了一个包含 160K 个词对的日语 - 中文双语词典进行文档和句子对齐。随后，我们使用 1.2M 条高质量的日语 - 中文句对训练了一个基于统计语言模型和词汇翻译概率的平行语料库过滤器。我们将在这 4.6M 个句对上训练的模型的翻译准确度与在全球网络挖掘的平行语料库 CCMatrix（12.4M）上训练的模型的准确度进行了比较。尽管我们的语料库只有 CCMatrix 的三分之一大小，但我们发现这两个模型的准确度相当，证实了使用众包进行平行数据的网络挖掘是可行的。

May, 2024

朝着更干净的面向文档的多语言爬行语料库

本文介绍了通过对现有的多语言网页语料库 OSCAR 进行自动注解和改进，以获得更适合于预训练大型生成语言模型的新版本的方法。

Jan, 2022

记录大型 Webtext 语料库：以 Colossal Clean Crawled Corpus 为案例研究

本文介绍了 Colossal Clean Crawled Corpus ，并探讨数据来源、数据包含信息、筛选数据的影响，发现了机器翻译的生成文本和少数族裔个体的数据被过滤，最后提出了从互联网抓取信息构建大规模数据集的建议。

Apr, 2021

从 CommonCrawl 构建 Web 规模的依赖解析语料库

介绍了 DepCC，这是迄今为止最大的英文语言分析语料库，包括 365 万份文档，由 Common Crawl 项目的 2520 亿个符记和 75 亿个命名实体出现组成，可以通过一些应用程序使用，例如基于句法的词嵌入训练，信息提取和问题回答等。该语料库构建了所有句子及其语言元数据的索引，可以快速搜索整个语料库，并在动词相似性任务上证明了其效用，显示训练在我们此语料库上的分布模型比维基百科的小语料库上训练的模型的效果更好。该分布模型在 SimVerb3500 数据集上优于基于小语料库训练的动词相似性的最新模型。

Oct, 2017