LongWanjuan: 往长文本质量的系统测量

Feb, 2024

LongWanjuan: 往长文本质量的系统测量

LongWanjuan: Towards Systematic Measurement for Long Text Quality

Kai Lv, Xiaoran Liu, Qipeng Guo, Hang Yan, Conghui He...

TL;DR通过评估连贯性、凝聚性和复杂性三个基本语言维度，我们系统性地衡量了长文本的质量，并引入了一套度量旨在评估长文本质量的指标，包括统计和预训练语言模型为基础的指标。利用这些指标，我们提出了 LongWanjuan，一个专门为增强语言模型在长文本任务上训练而设计的双语数据集，包含超过 160B 的标记。在 LongWanjuan 中，我们将长文本划分为整体性、聚合性和混乱性三种类型，从而能够对长文本质量进行详细分析。此外，我们设计了一种数据混合配方，策略性地平衡了 LongWanjuan 中不同类型的长文本，从而显著提高了模型在长文本任务上的表现。

Abstract

The quality of training data are crucial for enhancing the long-text capabilities of foundation models. Despite existing efforts to refine data quality through heuristic rules and evaluations based on data diversity and difficulty, there's a lack of systematic approaches specifically t

training data long texts linguistic dimensions metrics bilingual dataset

发现论文，激发创造

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了 EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本 ChineseWebText，其中包含 1.42 TB 的文本，并为每个文本分配了一个质量评分，从而方便 LLM 研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过 90% 的 600 GB 中文数据的更清洁子集。

Nov, 2023

基于文本质量的修剪方法用于语言模型的高效训练

本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法，以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准，本文建立了一个框架来识别和消除低质量的文本实例，提高了 LM 模型的训练效率。实验结果表明，通过这种方法，在多个模型和数据集上可以获得显著的训练效果提升，并展示了资源高效的 LM 训练的潜力。例如，在使用 OpenWebText 数据集进行训练时，相对于较少的数据量和较快的训练速度，多个 LM 模型在 14 个下游评估任务上的平均绝对准确性提高了 0.9%，在使用 Wikipedia 数据集时，平均绝对准确性提高了 0.8%。

Apr, 2024

LOT：面向叙事的中文长文本理解与生成基准评测

为了评估和公平比较不同模型的长文本处理能力，我们提出了一个名为 LOT 的以故事为中心的基准测试，并发布了一个名为 LongLM 的编码器 - 解码器型中文长文本预训练模型，训练了两个生成任务和 120G 中文小说，LongLM 在 LOT 中表现出在不同理解和生成任务方面优异的性能，胜过同等规模的预训练模型。

Aug, 2021

万卷：推动英文和中文大型模型的全面多模态数据集

本文介绍了 “Wan Juan” 数据集，一个大规模多模态数据集，包括中英文数据、文本、图像文本和视频模态，总容量超过 2TB。该数据集被用于训练 InternLM 模型，在与类似规模的模型相比的多维评估中展现出显著优势。

Aug, 2023

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

使用长输入文本进行问答的 QuALITY 模型

本文介绍了一个名为 QuALITY 的多项选择问答数据集，它包含英文上下文段落，其平均长度约为 5,000 个标记，远长于现有典型模型所能处理的长度。该数据集基于整篇文章编写和验证问题，有一半的问题无法在时间限制下回答，说明简单的浏览和搜索并不足以表现出优良的效果。作者的基准模型在这个任务上的表现较差（55.4％），并且显著落后于人类的表现（93.5％）。

Dec, 2021

CLongEval: 用于评估长文本大语言模型的中文基准

我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试 ——CLongEval，特点是足够的数据量、广泛的适用性和高质量。通过对 6 个开源长文本上下文大型语言模型和 2 个领先的商业对手进行评估，我们对长文本上下文模型的关键能力进行了深入分析，并提供了数据集、评估脚本和模型输出。

Mar, 2024

BAMBOO：评估大型语言模型的长文本建模能力的综合基准

多个研究已致力于扩展 LLMs 的上下文长度和增强其对长文本建模的能力。本文提出了 BAMBOO，一个多任务长上下文基准，并使用 10 个数据集从 5 个不同的长文本理解任务对 LLMs 进行全面评估，涵盖了核心能力和各个领域。通过在 BAMBOO 上进行实验，我们对五个长上下文模型进行了讨论，提出了四个关键的研究问题，并对当前的长上下文模型进行了质量分析，指出了增强长文本建模能力的未来方向。

Sep, 2023

Panda LLM: 开源中文指令模型的训练数据和评估

该研究关注于通过指令调整和提供全面的性能评估来增强开源大型语言模型，探讨各种训练数据因素，如数量、质量和语言分布，如何影响用于英语和中文语言的公开高质量指令数据集训练的指令调整模型的性能，目的是通过量化分析为开源聊天模型的持续进步提供有价值的见解，我们的模型、数据和代码可供其他人使用和构建。

May, 2023

长文档摘要的实证调查：数据集、模型和度量

本综述论文系统性地评估了长文档自动摘要各主要组成部分的研究进展，包括基准数据集、摘要模型和评估方法，并提出未来工作的方向。

Jul, 2022