May, 2025

超细网:高效的数据过滤和验证用于高质量大语言模型训练数据

TL;DR本研究针对大语言模型训练中数据质量问题,提出了一种高效的数据验证策略,从而快速评估数据对LLM训练的影响,并优化种子数据的选择。通过该策略,我们构建了一条数据过滤pipeline,显著提高了过滤效率和分类器质量,同时减少了实验和推理成本,从而创造出了约包含1万亿英语标记和1200亿中文标记的高质量Ultra-FineWeb数据集。