Zyda：一个用于开放语言建模的 1.3T 数据集

Jun, 2024

Zyda：一个用于开放语言建模的 1.3T 数据集

Zyda: A 1.3T Dataset for Open Language Modeling

Yury Tokpanov, Beren Millidge, Paolo Glorioso, Jonathan Pilault, Adam Ibrahim...

TL;DR我们介绍了一个新的数据集 Zyda，由多个开源数据集整合而成，它拥有高质量的语料库，包含 1.3 万亿个标记。通过严格的过滤和去重处理，我们提高了 Zyda 的质量，并发现它不仅与其他开源数据集竞争力相当，还能大幅提升 Pythia 套件中可比模型的性能。我们的数据处理方法显著增强了 Zyda 的效果，甚至优于其单独使用的各个数据集中最好的效果。

Abstract

The size of large language models (LLMs) has scaled dramatically in recent years and their computational and data requirements have surged correspondingly. State-of-the-art language models, even at relatively smaller sizes, typically require training on at least a trillion

large language models dataset tokens pretraining performance

发现论文，激发创造

Ziya2：数据为中心的学习对 LLM 来说就足够了

提出了 Ziya2 模型，使用数据为中心的优化方法来增强其在不同阶段的学习过程，通过在多个基准测试中的显著优异表现，展示了 Ziya2 相较于其他模型以及开源模型的有希望的结果。

Nov, 2023

Dolma: 一个包含三万亿标记的开放语料库，用于语言模型预训练研究

释放 Dolma，这是一个由各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料混合构建的拥有三万亿个标记的英文语料库。我们还开源了数据整理工具包，以便进一步实验和复现我们的工作。报告中描述了 Dolma 的设计原则、构建细节和内容摘要，并与在 Dolma 的中间状态上训练语言模型的分析和实验结果交叉展示，分享了我们对重要数据整理实践的了解，包括内容或质量过滤器、去重和多源混合的作用。Dolma 已被用于训练 OLMo，这是一个设计用于构建和研究语言建模科学的最先进的开放式语言模型和框架。

Jan, 2024

Pythia：用于分析大规模语言模型在训练和扩展方面的工具集

介绍了 16 个大小从 70M 到 12B 参数的大型语言模型套件 Pythia，旨在促进在语言模型和训练动态中的研究，包括记忆化、少样本性能的术语频率效应和减少性别偏见等方面的结果。

Apr, 2023

Yuan 1.0：零样本学习和少样本学习中的大规模预训练语言模型

本研究提出了一种方法，将分布式训练性能纳入模型架构设计中，用于构建 245B 参数的大型单例语言模型 Yuan 1.0，在千万台 GPU 上取得了优异的性能，并在自然语言处理任务中取得了最新成果，同时还建立了当前质量最高的 5TB 中文语料库。此外，本研究还提出了数据处理方法和校准与标签扩展方法，以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力，其生成的文章很难与人类撰写的文章区分开来。

Oct, 2021

玉兰：一个开源的大型语言模型

该论文介绍了 YuLan 的开发，这是一系列具有 120 亿参数的开源 LLMs，其基础模型在多样化语料库中进行了预训练，并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据，结合指导调整和人工对齐的后续训练阶段，以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习，YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。

Jun, 2024

FineWeb 数据集：对网络进行精细分离以获取大规模最佳文本数据

FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集，比其他公开预训练数据集产生更好性能的大型语言模型（LLM）。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力，我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。

Jun, 2024

EDA Corpus: 强化与 OpenROAD 的交互的大型语言模型数据集

通过介绍一个针对 OpenROAD 的开源数据集，该数据集包含 1000 多个数据点，并以两种格式进行结构化：一种是问句和回答的配对集，另一种是代码提示和对应的 OpenROAD 脚本。我们旨在通过提供这个数据集，促进 LLM 在 EDA 领域的研究。

May, 2024

YAYI 2：多语种开源大型语言模型

我们提出了 YAYI 2，这是一个具有 300 亿参数的基础模型和聊天模型的多语言模型，通过多个基准测试表明比其他类似规模的开源模型表现更好。

Dec, 2023

Aya 数据集：一份用于多语言指导调优的开放获取集合

本研究针对英语语言数据集的局限性，通过与全球流利的语言使用者合作，建立了覆盖 65 种语言的人工策划指令跟随数据集，并通过模板和翻译现有数据集创建了迄今最广泛的多语言数据集，共包含 5.13 亿个实例。此外，我们还提供 Aya 注释平台、Aya 数据集、Aya 集合和 Aya 评估套件等四个关键资源，而且 Aya 倡议还是一项有价值的参与性研究案例，涉及来自 119 个国家的合作者，我们认为此为未来旨在弥补资源差距的研究合作提供了宝贵的框架。

Feb, 2024

CulturaX：一个干净、庞大且多语言的数据集，适用于拥有 167 种语言的大型语言模型

CulturaX 为大型语言模型提供一份多语种数据集，经过严格清洗和去重处理，解决了 LLM 开发中的透明度、幻觉和偏见问题，促进了多语种 LLM 的研究和发展。

Sep, 2023