Feb, 2024

QuRating: 选择高质量数据以训练语言模型

TL;DR使用 QuRating 方法选择预训练数据,可以捕捉人们直观感知的文本抽象品质。通过对四个品质进行分析,我们发现 LLMs 在进行文本配对判断方面表现优于直接评价文本质量。使用 QuRater 模型学习从配对判断中学习标量评分,并使用它为 260B 训练语料库的每个标准进行质量评级。根据不同的质量评级选择 30B 令牌,并在选定的数据上训练 13B 参数的语言模型。平衡质量和多样性很重要,仅选择最高评级的文档会导致较差的结果。通过使用质量评级作为逻辑的采样,我们的模型在困惑度和上下文学习性能方面均优于基准模型。除了数据选择外,我们使用质量评级构建了一个训练课程,提高了性能而无需更改训练数据集。我们对质量评级进行了广泛分析,并讨论了其特征、偏见和广泛的影响。