基于文本质量的修剪方法用于语言模型的高效训练

Apr, 2024

基于文本质量的修剪方法用于语言模型的高效训练

Text Quality-Based Pruning for Efficient Training of Language Models

Vasu Sharma, Karthik Padthe, Newsha Ardalani, Kushal Tirumala, Russell Howes...

TL;DR本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法，以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准，本文建立了一个框架来识别和消除低质量的文本实例，提高了 LM 模型的训练效率。实验结果表明，通过这种方法，在多个模型和数据集上可以获得显著的训练效果提升，并展示了资源高效的 LM 训练的潜力。例如，在使用 OpenWebText 数据集进行训练时，相对于较少的数据量和较快的训练速度，多个 LM 模型在 14 个下游评估任务上的平均绝对准确性提高了 0.9%，在使用 Wikipedia 数据集时，平均绝对准确性提高了 0.8%。

Abstract

In recent times training language models (LMs) have relied on computationally heavy training over massive datasets which makes this training process extremely laborious. In this paper we propose a novel method for numerically evaluating →

language models text quality nlp datasets training efficiency lm training

发现论文，激发创造

QuRating: 选择高质量数据以训练语言模型

使用 QuRating 方法选择预训练数据，可以捕捉人们直观感知的文本抽象品质。通过对四个品质进行分析，我们发现 LLMs 在进行文本配对判断方面表现优于直接评价文本质量。使用 QuRater 模型学习从配对判断中学习标量评分，并使用它为 260B 训练语料库的每个标准进行质量评级。根据不同的质量评级选择 30B 令牌，并在选定的数据上训练 13B 参数的语言模型。平衡质量和多样性很重要，仅选择最高评级的文档会导致较差的结果。通过使用质量评级作为逻辑的采样，我们的模型在困惑度和上下文学习性能方面均优于基准模型。除了数据选择外，我们使用质量评级构建了一个训练课程，提高了性能而无需更改训练数据集。我们对质量评级进行了广泛分析，并讨论了其特征、偏见和广泛的影响。

Feb, 2024

当少即是多：探究大规模预训练 LLMs 的数据修剪

通过比较数据质量的简单估算方法困惑度和更复杂、计算密集的评估方法的错误 L2 范数和记忆化，我们发现困惑度方法在去除数据噪声和提升预训练数据集质量方面具有较好的效果。我们能够在仅使用原始训练数据的 30% 进行训练的情况下，改进我们的基准模型，这为自动筛选高质量数据集提供了新的方法论，并表明大部分的预训练数据可被删除而保持性能。

Sep, 2023

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

LongWanjuan: 往长文本质量的系统测量

通过评估连贯性、凝聚性和复杂性三个基本语言维度，我们系统性地衡量了长文本的质量，并引入了一套度量旨在评估长文本质量的指标，包括统计和预训练语言模型为基础的指标。利用这些指标，我们提出了 LongWanjuan，一个专门为增强语言模型在长文本任务上训练而设计的双语数据集，包含超过 160B 的标记。在 LongWanjuan 中，我们将长文本划分为整体性、聚合性和混乱性三种类型，从而能够对长文本质量进行详细分析。此外，我们设计了一种数据混合配方，策略性地平衡了 LongWanjuan 中不同类型的长文本，从而显著提高了模型在长文本任务上的表现。

Feb, 2024

探索使用大型语言模型进行基于参考文本无关的文本质量评估：初步实证研究

通过比较三种基于 ChatGPT 或类似大型语言模型的无参考评估方法，实验证明 ChatGPT 能够有效地从不同角度评估文本质量，尤其是利用 ChatGPT 生成数字评分的 Explicit Score 方法最有效可靠。但是，直接使用 ChatGPT 比较两个文本的质量可能导致次优结果。

Apr, 2023

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023

机器翻译人类评估的有效性改进探讨

本研究探讨了一种简单的降低标注成本的方法，即采用分层抽样和控制变量等技术，结合文档成员身份信息和自动评估指标，从而在固定标注预算下获得更高的准确性。在测试集上，相比于纯随机抽样，平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。

Apr, 2022

评估信息提取的质量

大规模语言模型的进展显著提高了从非结构化和半结构化数据源中提取信息的效率。本文引入了一个自动框架，用于评估信息提取的质量和完整性，重点关注实体及其属性的信息提取。讨论了如何处理大规模语言模型的输入 / 输出大小限制，并分析了在迭代提取信息时它们的性能。最后，介绍了用于评估提取质量的度量标准，并对如何解释这些度量标准进行了广泛讨论。

Apr, 2024

通过数据压缩评估大型语言模型的泛化能力和鲁棒性

我们提出了一种基于无损数据压缩的评估方法，用于测试模型训练截断后的预测能力广义化情况。我们收集了从 2017 年到 2023 年的 83 个月的全面测试数据，并根据模型的训练数据截断将数据分为训练和测试期。我们通过测试期的压缩性能作为对未见数据广义化的度量，以及训练期和测试期之间的性能差距作为鲁棒性的度量来进行测量。实验测试了 14 种具有各种规模的代表性大型语言模型，包括维基百科、新闻文章、代码、arXiv 论文和多模态数据。我们发现许多模型的压缩率在其截断日期后显著降低，但 Mistral 和 Llama-2 等模型在性能和鲁棒性之间取得了良好的平衡。结果还表明，模型在新闻和代码数据上很难广义化，但在 arXiv 论文上表现特别好。我们还发现上下文大小和标记化实现对整体压缩性能有很大影响。

Feb, 2024

探索精确度和召回率以评估 LLMs 的质量和多样性

该论文介绍了一个评估大型语言模型的新颖框架，重点是将图像生成的精确性和召回率指标应用于文本生成。通过对最先进的语言模型进行全面评估，揭示了它们在开放式生成任务上的性能问题，传统基准测试无法充分捕捉到。研究结果表明，在模型通过人类反馈进行微调时，生成样本的质量和多样性之间存在权衡。此工作扩展了基于分布的自然语言处理评估工具包，为当前大型语言模型在生成多样且高质量文本时面临的实际能力和挑战提供了深入洞察。

Feb, 2024