Zyda:一个用于开放语言建模的 1.3T 数据集
提出了 Ziya2 模型,使用数据为中心的优化方法来增强其在不同阶段的学习过程,通过在多个基准测试中的显著优异表现,展示了 Ziya2 相较于其他模型以及开源模型的有希望的结果。
Nov, 2023
释放 Dolma,这是一个由各种网络内容、科学论文、代码、公共领域图书、社交媒体和百科全书材料混合构建的拥有三万亿个标记的英文语料库。我们还开源了数据整理工具包,以便进一步实验和复现我们的工作。报告中描述了 Dolma 的设计原则、构建细节和内容摘要,并与在 Dolma 的中间状态上训练语言模型的分析和实验结果交叉展示,分享了我们对重要数据整理实践的了解,包括内容或质量过滤器、去重和多源混合的作用。Dolma 已被用于训练 OLMo,这是一个设计用于构建和研究语言建模科学的最先进的开放式语言模型和框架。
Jan, 2024
介绍了 16 个大小从 70M 到 12B 参数的大型语言模型套件 Pythia,旨在促进在语言模型和训练动态中的研究,包括记忆化、少样本性能的术语频率效应和减少性别偏见等方面的结果。
Apr, 2023
本研究提出了一种方法,将分布式训练性能纳入模型架构设计中,用于构建 245B 参数的大型单例语言模型 Yuan 1.0,在千万台 GPU 上取得了优异的性能,并在自然语言处理任务中取得了最新成果,同时还建立了当前质量最高的 5TB 中文语料库。此外,本研究还提出了数据处理方法和校准与标签扩展方法,以提高零样本和少样本准确性。Yuan 1.0 表现出强大的自然语言生成能力,其生成的文章很难与人类撰写的文章区分开来。
Oct, 2021
该论文介绍了 YuLan 的开发,这是一系列具有 120 亿参数的开源 LLMs,其基础模型在多样化语料库中进行了预训练,并采用了三阶段预训练方法以提高整体能力。通过使用大量高质量合成数据,结合指导调整和人工对齐的后续训练阶段,以及跨这些阶段的课程学习框架来促进复杂和长尾知识的学习,YuLan 已在各种英文和中文基准测试中达到与最先进 LLMs 相媲美的性能。
Jun, 2024
FineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集,比其他公开预训练数据集产生更好性能的大型语言模型(LLM)。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力,我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。
Jun, 2024
通过介绍一个针对 OpenROAD 的开源数据集,该数据集包含 1000 多个数据点,并以两种格式进行结构化:一种是问句和回答的配对集,另一种是代码提示和对应的 OpenROAD 脚本。我们旨在通过提供这个数据集,促进 LLM 在 EDA 领域的研究。
May, 2024
本研究针对英语语言数据集的局限性,通过与全球流利的语言使用者合作,建立了覆盖 65 种语言的人工策划指令跟随数据集,并通过模板和翻译现有数据集创建了迄今最广泛的多语言数据集,共包含 5.13 亿个实例。此外,我们还提供 Aya 注释平台、Aya 数据集、Aya 集合和 Aya 评估套件等四个关键资源,而且 Aya 倡议还是一项有价值的参与性研究案例,涉及来自 119 个国家的合作者,我们认为此为未来旨在弥补资源差距的研究合作提供了宝贵的框架。
Feb, 2024
CulturaX 为大型语言模型提供一份多语种数据集,经过严格清洗和去重处理,解决了 LLM 开发中的透明度、幻觉和偏见问题,促进了多语种 LLM 的研究和发展。
Sep, 2023