Dolma: 一个包含三万亿标记的开放语料库，用于语言模型预训练研究

Jan, 2024

Dolma: 一个包含三万亿标记的开放语料库，用于语言模型预训练研究

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson...

TL;DR释放 Dolma，这是一个由各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料混合构建的拥有三万亿个标记的英文语料库。我们还开源了数据整理工具包，以便进一步实验和复现我们的工作。报告中描述了 Dolma 的设计原则、构建细节和内容摘要，并与在 Dolma 的中间状态上训练语言模型的分析和实验结果交叉展示，分享了我们对重要数据整理实践的了解，包括内容或质量过滤器、去重和多源混合的作用。Dolma 已被用于训练 OLMo，这是一个设计用于构建和研究语言建模科学的最先进的开放式语言模型和框架。

Abstract

language models have become a critical technology to tackling a wide range of natural language processing tasks, yet many details about how the best-performing language models were developed are not reported. In

language models pretraining corpora dolma data curation language modeling

发现论文，激发创造

Zyda：一个用于开放语言建模的 1.3T 数据集

我们介绍了一个新的数据集 Zyda，由多个开源数据集整合而成，它拥有高质量的语料库，包含 1.3 万亿个标记。通过严格的过滤和去重处理，我们提高了 Zyda 的质量，并发现它不仅与其他开源数据集竞争力相当，还能大幅提升 Pythia 套件中可比模型的性能。我们的数据处理方法显著增强了 Zyda 的效果，甚至优于其单独使用的各个数据集中最好的效果。

Jun, 2024

DataComp-LM: 寻找下一代语言模型训练集

我们引入了用于语言模型的 DataComp（DCLM）的测试平台，通过进行受控的数据集实验来改进语言模型。作为 DCLM 的一部分，我们提供了从 Common Crawl 中提取的标准化语料库，基于 OpenLM 框架的有效预训练方法以及广泛的 53 个下游评估。DCLM 基准模型的实验结果表明，基于模型的过滤是组装高质量训练集的关键。我们的研究结果强调了训练语言模型的数据集设计的重要性，并为进一步研究数据策划提供了一个起点。

Jun, 2024

OLMo: 加速语言模型的科学

OLMo 是一种最先进且真正开放的语言模型，其框架用于构建和研究语言建模的科学。通过提供模型权重、推理代码以及训练和评估代码等整个框架，我们希望这一发布能够增强开放研究社区的实力，并激发创新的新浪潮。

Feb, 2024

面向语言建模的大规模多样化阿拉伯语语料库

这项研究介绍了一个由超过 500GB 的阿拉伯语言清理文本构成的语料库，旨在提高大规模语言模型的跨领域知识和下游泛化能力。此外，该语料库还被用于大型阿拉伯语言模型的训练，在对典型的 NLP 任务进行微调时，与 mBERT 相比表现出 4.5% 至 8.5% 的显着提升，据我所知，这是目前所收集的最大、最清洁、最具多样性的阿拉伯语语料库。

Jan, 2022

PolyLM: 一个开源的多语种大语言模型

PolyLM 是一个多语言大型语言模型，经过课程学习和自我指导方法的预训练，可以在多种不同语言的多语言理解、问答、生成和翻译任务上获得比其他已有模型更好的表现。

Jul, 2023

LLaMA：开放高效的基础语言模型

介绍了 LLaMA，包含 7B 至 65B 个参数的基础语言模型，使用公开可用的数据集训练，其中 LLaMA-13B 在大多数基准测试中优于 GPT-3（175B），LLaMA-65B 等模型与最佳模型 Chinchilla-70B 和 PaLM-540B 相竞争。

Feb, 2023

FineWeb 数据集：对网络进行精细分离以获取大规模最佳文本数据

FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集，比其他公开预训练数据集产生更好性能的大型语言模型（LLM）。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力，我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。

Jun, 2024

Paloma: 评估语言模型贴合度的基准

通过测量语言模型对 585 个文本领域（从 nytimes.com 到 Reddit 上的 r/depression）的适应程度，本论文介绍了一种名为 Paloma 的语言模型评估方法，并使用基于指导方针的可比性组织结果，用于比较效率与成本的帕累托效率分析，还分析了预训练对不同领域适应性的影响。

Dec, 2023

玉兰：一个开源的大型语言模型

该论文介绍了 YuLan 的开发，这是一系列具有 120 亿参数的开源 LLMs，其基础模型在多样化语料库中进行了预训练，并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据，结合指导调整和人工对齐的后续训练阶段，以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习，YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。

Jun, 2024

DLAMA: 一个用于整理多元文化事实以探究预训练语言模型知识的框架

本研究提出了一种新的针对文化多样性的基准数据集 DLAMA-v1，并表明英语提示对多语言模型的性能有较大的影响。

Jun, 2023