Nov, 2023

基于有效评估模型提取的大规模高质量中文网络文本

TL;DR我们提出了EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本ChineseWebText,其中包含1.42 TB的文本,并为每个文本分配了一个质量评分,从而方便LLM研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过90%的600 GB中文数据的更清洁子集。