Jan, 2024

Dolma: 一个包含三万亿标记的开放语料库,用于语言模型预训练研究

TL;DR释放 Dolma,这是一个由各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料混合构建的拥有三万亿个标记的英文语料库。我们还开源了数据整理工具包,以便进一步实验和复现我们的工作。报告中描述了 Dolma 的设计原则、构建细节和内容摘要,并与在 Dolma 的中间状态上训练语言模型的分析和实验结果交叉展示,分享了我们对重要数据整理实践的了解,包括内容或质量过滤器、去重和多源混合的作用。Dolma 已被用于训练 OLMo,这是一个设计用于构建和研究语言建模科学的最先进的开放式语言模型和框架。