Jun, 2024

FineWeb 数据集:对网络进行精细分离以获取大规模最佳文本数据

TL;DRFineWeb 是一个从 96 个 Common Crawl 快照中派生出的 1500 万亿标记数据集,比其他公开预训练数据集产生更好性能的大型语言模型(LLM)。LLMs 在 FineWeb 上预训练表现出更好的知识和推理能力,我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。