Pile: 一个包含多样文本的 800GB 语言建模数据集

Dec, 2020

Pile: 一个包含多样文本的 800GB 语言建模数据集

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

Leo Gao, Stella Biderman, Sid Black, Laurence Golding, Travis Hoppe...

TL;DR本研究使用 825GB 的英文文本语料库，旨在训练大规模语言模型，通过 GPT-2 和 GPT-3 的预实验发现，这些模型在处理学术写作等特定组件上表现不佳，而在训练了语料库后在所有组件上都有了显著提高。同时，我们对数据进行了深入分析，提供代码用于其构建。

Abstract

Recent work has demonstrated that increased training dataset diversity improves general cross-domain knowledge and downstream generalization capability for large-scale language models. With this in mind, we prese

training dataset diversity large-scale language models the pile academic writing data analysis

发现论文，激发创造

堆数据表

Pile 数据集是由 EleutherAI 收集的 825 个 Gib 的人类编写文本数据集，由 22 个不同的文本来源组成，可用于大规模语言建模。

Jan, 2022

针对数据效率的语言模型 MiniPile 挑战

本文提出 MiniPile 挑战，呈现一种使用文本语料库的小数据集进行语言模型预训练的方法，其适用性通过在 GLUE 和 SNI 基准测试中得到论证。

Apr, 2023

MultiLegalPile: 一个拥有 689GB 的多语言法律文本库

本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile，用于培训各种 NLP 模型，使用 RoBERTa 和 Longformer 等预训练模型性能优越，在 LEXTREME 上取得新的 SotA，我们在 LexGLUE 的英语和多语言模型上进行了评估，发布了数据集、训练模型和所有代码。

Jun, 2023

北欧桩：一个用于语言建模的 1.2TB 北欧数据集

为了推动在诸如北欧语言这样的小语种中开发 LLMs，我们策划了一个高质量的数据集，其中包含所有主要的北日耳曼语言（丹麦语、冰岛语、挪威语和瑞典语），以及一些高质量的英语数据，并详细介绍了我们的数据收集、清理和过滤的过程。

Mar, 2023

生成数学 AI：第一部分 --MathPile：一个十亿词级别的数学预训练语料库

该研究介绍了 MathPile，这是一个高质量、大规模的数学专注语料库，包含约 95 亿个标记。通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作，确保了语料库的高质量。此外，还对下游基准测试集进行了数据污染检测以消除重复项。希望 MathPile 能够提高语言模型的数学推理能力，并计划开源不同版本的 MathPile 以及用于处理的脚本，以促进该领域的未来发展。

Dec, 2023

法律堆：从法律和 256GB 开源法律数据集中学习负责任的数据过滤

本文提出一种基于法律框架的预训练材料过滤方法，利用 Pile of Law 数据集进行预训练，以帮助改善访问司法服务等法律任务，并提取可操作的法律规范，为研究人员提供新的模型处理研究方向。

Jul, 2022

大型语言模型最近邻测试时间训练

本研究使用最近邻检索方法，直接在测试时 fine-tuning 模型，明显提升了大量语言模型任务的性能。

May, 2023

LexGPT 0.1：基于 Pile of Law 的预训练 GPT-J 模型

该篇论文旨在构建专为法律领域定制的生成语言模型，其中 LexGPT 模型可通过 “无代码” 方法对专业数据进行微调，以用于下游任务，但分类器性能比最先进的结果明显较低。

Jun, 2023

Stack: 3 TB 开源许可的源代码

本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack，以及如何构建、管理和使用该数据集来训练大型语言模型，通过在 Python 子集上训练 350M 参数解码器，在文本到代码的基准测试上取得了有前途的结果。

Nov, 2022

IEPile: 挖掘大规模基于模式的信息抽取语料库

通过构建综合的双语（英语和汉语）信息抽取指示语料库 IEPile，可以提高大语言模型在信息抽取中的性能，尤其是零样本泛化能力。

Feb, 2024