Jun, 2024
FineWeb数据集:对网络进行精细分离以获取大规模最佳文本数据
The FineWeb Datasets: Decanting the Web for the Finest Text Data at
Scale
TL;DRFineWeb是一个从96个Common Crawl快照中派生出的1500万亿标记数据集,比其他公开预训练数据集产生更好性能的大型语言模型(LLM)。LLMs在FineWeb上预训练表现出更好的知识和推理能力,我们公开释放了数据集、数据整理代码库和所有在消融实验中训练的模型。