Feb, 2024

LongWanjuan: 往长文本质量的系统测量

TL;DR通过评估连贯性、凝聚性和复杂性三个基本语言维度,我们系统性地衡量了长文本的质量,并引入了一套度量旨在评估长文本质量的指标,包括统计和预训练语言模型为基础的指标。利用这些指标,我们提出了 LongWanjuan,一个专门为增强语言模型在长文本任务上训练而设计的双语数据集,包含超过 160B 的标记。在 LongWanjuan 中,我们将长文本划分为整体性、聚合性和混乱性三种类型,从而能够对长文本质量进行详细分析。此外,我们设计了一种数据混合配方,策略性地平衡了 LongWanjuan 中不同类型的长文本,从而显著提高了模型在长文本任务上的表现。