QuRating: 选择高质量数据以训练语言模型

Feb, 2024

QuRating: 选择高质量数据以训练语言模型

QuRating: Selecting High-Quality Data for Training Language Models

Alexander Wettig, Aatmik Gupta, Saumya Malik, Danqi Chen

TL;DR使用 QuRating 方法选择预训练数据，可以捕捉人们直观感知的文本抽象品质。通过对四个品质进行分析，我们发现 LLMs 在进行文本配对判断方面表现优于直接评价文本质量。使用 QuRater 模型学习从配对判断中学习标量评分，并使用它为 260B 训练语料库的每个标准进行质量评级。根据不同的质量评级选择 30B 令牌，并在选定的数据上训练 13B 参数的语言模型。平衡质量和多样性很重要，仅选择最高评级的文档会导致较差的结果。通过使用质量评级作为逻辑的采样，我们的模型在困惑度和上下文学习性能方面均优于基准模型。除了数据选择外，我们使用质量评级构建了一个训练课程，提高了性能而无需更改训练数据集。我们对质量评级进行了广泛分析，并讨论了其特征、偏见和广泛的影响。

Abstract

Selecting high-quality pre-training data is important for creating capable language models, but existing methods rely on simple heuristics. We introduce qurating, a method for selecting →

pre-training data qurating writing style required expertise educational value

发现论文，激发创造

基于文本质量的修剪方法用于语言模型的高效训练

本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法，以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准，本文建立了一个框架来识别和消除低质量的文本实例，提高了 LM 模型的训练效率。实验结果表明，通过这种方法，在多个模型和数据集上可以获得显著的训练效果提升，并展示了资源高效的 LM 训练的潜力。例如，在使用 OpenWebText 数据集进行训练时，相对于较少的数据量和较快的训练速度，多个 LM 模型在 14 个下游评估任务上的平均绝对准确性提高了 0.9%，在使用 Wikipedia 数据集时，平均绝对准确性提高了 0.8%。

Apr, 2024

大型语言模型能准确预测搜索者偏好

通过获取真实用户的仔细反馈来改进相关性标签的质量，并提出一种基于大型语言模型的标签生成方法，从而获得具有和人工标记员相似的准确性和能力的高质量标签，为搜索系统的评估和优化提供了有效途径。

Sep, 2023

谁的语言算是高品质？测量文本数据选择中的语言意识形态

本文使用美国高中学生撰写的报纸文章，研究了 GPT-3 质量筛选器偏向于哪些学校、地理区域和社会阶层的语言。研究发现质量筛选器的质量测量与事实和文学赞誉等合理指标不一致，强调任何语料库为高质量都涉及到语言意识形态，需要更谨慎地构建语言模型培训语料库，更好地明确各种文本的包含或排除的透明度和理由。

Jan, 2022

基于质量驱动数据选择的课程学习

通过利用图像文字相互关系和模型困惑度评估选择数据的品质，本研究提出了一种利用两个属性在二维空间选择数据的数据选择方法。研究结果表明，相比于使用完整数据集，在五种常见能力上得到了显著提升，可以构建不同品质的多阶段子集以促进课程学习。

Jun, 2024

当少即是多：探究大规模预训练 LLMs 的数据修剪

通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化，我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下，改进我们的基准模型，这为自动筛选高质量数据集提供了新的方法论，并表明大部分的预训练数据可被删除而保持性能。

Sep, 2023

产品搜索的相关判断大型语言模型

基于 Large Language Models (LLMs) 的技术，通过自动化查询 - 商品对的相关性判断，改善产品搜索的相关性预测精度，对商品搜索的相关判断自动化领域具有重要影响。

Jun, 2024

ReviewQA：一个基于关系和方面的意见阅读数据集

本文介绍了一种基于酒店评论的问题回答数据集 ReviewQA，旨在评估模型的关联理解和能力，并提供了几种基线模型的实现。

Oct, 2018

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023

利用大型语言模型进行新闻源推荐的多层排名

通过引用语句，建立一个可靠的新闻信息来源推荐体系，以提高推荐系统的预测和行为质量。

Jun, 2024

将主观众评估作为改进自然语言生成的附加客观标准的估计

本文探讨在多任务学习设置中，使用主观评估作为语言生成模型训练的一部分，并使用群众创作对话语料库对六种不同的语言生成模型进行微调。评估显示，多任务学习的模型生成的话语在主观上评分最高，且在推动对话发展、无冒犯性等方面得分最高。因此，将来可以研究将主观人类评估纳入语言生成模型训练中，从而在开发过程中更好地与人类用户进行交互。

Apr, 2021