BAMBOO：评估大型语言模型的长文本建模能力的综合基准

Sep, 2023

BAMBOO：评估大型语言模型的长文本建模能力的综合基准

BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models

Zican Dong, Tianyi Tang, Junyi Li, Wayne Xin Zhao, Ji-Rong Wen

TL;DR多个研究已致力于扩展 LLMs 的上下文长度和增强其对长文本建模的能力。本文提出了 BAMBOO，一个多任务长上下文基准，并使用 10 个数据集从 5 个不同的长文本理解任务对 LLMs 进行全面评估，涵盖了核心能力和各个领域。通过在 BAMBOO 上进行实验，我们对五个长上下文模型进行了讨论，提出了四个关键的研究问题，并对当前的长上下文模型进行了质量分析，指出了增强长文本建模能力的未来方向。

Abstract

large language models (llms) have achieved dramatic proficiency over NLP tasks with normal length. Recently, multiple studies have committed to extending the context length and enhancing the →

large language models long context benchmark llms text understanding tasks long text modeling

发现论文，激发创造

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

BABILong: 长篇背景下的 LLMs 极限测试和筛选

在这项研究中，我们介绍了 BABILong 基准测试，用于评估大型语言模型在处理长上下文时的效率。评估结果表明，目前流行的语言模型仅有效地利用上下文的 10-20％，并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中，使用检索增强生成方法能够以最高 60％的准确率回答单个事实问题，而与上下文长度无关。对于上下文扩展方法，采用循环记忆变压器可以处理长度达 1100 万个标记。BABILong 基准测试可以扩展到任意长度，以支持评估具有更强能力的新模型，并为 1 百万个标记长度提供了分割。

Jun, 2024

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

XL$^2$Bench：极长上下文理解与长距离依赖的基准测试

我们介绍了一个长文本理解的基准测试 XL2Bench，其中包含三个场景：小说阅读、论文阅读和法律阅读，以及四个难度递增的任务：记忆检索、细节理解、整体理解和开放式生成，涵盖了 27 个子任务，用英文和中文表示，平均长度为 100K + 词（英文）和 200K + 字符（中文）。我们评估了六个领先的大型语言模型在 XL2Bench 上的表现，发现它们的性能明显落后于人类水平。此外，我们观察到在原始数据集和增强数据集上的性能下降，凸显了我们缓解数据污染的方法的有效性。

Apr, 2024

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

Ada-LEval：使用可调整长度基准评估长上下文语言模型

我们引入了 Ada-LEval，这是一个适用于评估 LLM 长上下文理解能力的长度可适应性基准测试，包括两个具有挑战性的子集 TSort 和 BestAnswer，通过评估 4 个最先进的闭源 API 模型和 6 个开源模型，证明了目前 LLM 在超长上下文环境中的局限性。

Apr, 2024

CLongEval: 用于评估长文本大语言模型的中文基准

我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试 ——CLongEval，特点是足够的数据量、广泛的适用性和高质量。通过对 6 个开源长文本上下文大型语言模型和 2 个领先的商业对手进行评估，我们对长文本上下文模型的关键能力进行了深入分析，并提供了数据集、评估脚本和模型输出。

Mar, 2024

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

KV 缓存压缩，我们必须拿什么作为交换？长上下文能力方法的全面基准测试

大语言模型的长上下文能力是其关键能力之一，本研究填补了现有方法的空白，并评估了 10 多种最新方法在长上下文任务领域的表现，揭示了许多以前未知的现象，为未来长上下文能力大语言模型的发展提供了洞见和工作平台。

Jul, 2024

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023