针对数据效率的语言模型 MiniPile 挑战

Apr, 2023

针对数据效率的语言模型 MiniPile 挑战

The MiniPile Challenge for Data-Efficient Language Models

Jean Kaddour

TL;DR本文提出 MiniPile 挑战，呈现一种使用文本语料库的小数据集进行语言模型预训练的方法，其适用性通过在 GLUE 和 SNI 基准测试中得到论证。

Abstract

The ever-growing diversity of pre-training text corpora has equipped language models with generalization capabilities across various downstream tasks. However, such diverse datasets are often too large for academic budgets; hence, most research on Transformer architectures, training pr

pre-training language models minipile challenge text corpus bert

发现论文，激发创造

Pile: 一个包含多样文本的 800GB 语言建模数据集

本研究使用 825GB 的英文文本语料库，旨在训练大规模语言模型，通过 GPT-2 和 GPT-3 的预实验发现，这些模型在处理学术写作等特定组件上表现不佳，而在训练了语料库后在所有组件上都有了显著提高。同时，我们对数据进行了深入分析，提供代码用于其构建。

Dec, 2020

生成数学 AI：第一部分 --MathPile：一个十亿词级别的数学预训练语料库

该研究介绍了 MathPile，这是一个高质量、大规模的数学专注语料库，包含约 95 亿个标记。通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作，确保了语料库的高质量。此外，还对下游基准测试集进行了数据污染检测以消除重复项。希望 MathPile 能够提高语言模型的数学推理能力，并计划开源不同版本的 MathPile 以及用于处理的脚本，以促进该领域的未来发展。

Dec, 2023

MultiLegalPile: 一个拥有 689GB 的多语言法律文本库

本研究介绍了一个新的大型多语言法律文本数据集 MultiLegalPile，用于培训各种 NLP 模型，使用 RoBERTa 和 Longformer 等预训练模型性能优越，在 LEXTREME 上取得新的 SotA，我们在 LexGLUE 的英语和多语言模型上进行了评估，发布了数据集、训练模型和所有代码。

Jun, 2023

北欧桩：一个用于语言建模的 1.2TB 北欧数据集

为了推动在诸如北欧语言这样的小语种中开发 LLMs，我们策划了一个高质量的数据集，其中包含所有主要的北日耳曼语言（丹麦语、冰岛语、挪威语和瑞典语），以及一些高质量的英语数据，并详细介绍了我们的数据收集、清理和过滤的过程。

Mar, 2023

堆数据表

Pile 数据集是由 EleutherAI 收集的 825 个 Gib 的人类编写文本数据集，由 22 个不同的文本来源组成，可用于大规模语言建模。

Jan, 2022

IEPile: 挖掘大规模基于模式的信息抽取语料库

通过构建综合的双语（英语和汉语）信息抽取指示语料库 IEPile，可以提高大语言模型在信息抽取中的性能，尤其是零样本泛化能力。

Feb, 2024

大型语言模型最近邻测试时间训练

本研究使用最近邻检索方法，直接在测试时 fine-tuning 模型，明显提升了大量语言模型任务的性能。

May, 2023

测试集上的预训练就足够了

通过精心策划的数据预训练，使用新颖的数据混合集，我们的 Transformer-based 语言模型 phi-CTNL 在多个学术基准测试中完美表现，并打破了已知基础模型的记录，同时还展现了前所未有的准确预测下游评估基准的能力。

Sep, 2023

当少即是多：探究大规模预训练 LLMs 的数据修剪

通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化，我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下，改进我们的基准模型，这为自动筛选高质量数据集提供了新的方法论，并表明大部分的预训练数据可被删除而保持性能。

Sep, 2023

压缩语言模型中预训练数据量的重要性

我们研究了预训练数据量对紧凑型语言模型的影响。我们发现，即使只有 100MB 的预训练数据，通过在法语问答数据集（FQuAD）上微调 BERT 模型，都可以得到表现很好的模型。此外，我们还展示了，除了任务特定的语料库，中等数量的预训练数据并不能取得实质性的改进。

Oct, 2020