侦探QA：评估侦探小说中的长文脉络推理

Sep, 2024

侦探QA：评估侦探小说中的长文脉络推理

DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels

Zhe Xu, Jiasheng Ye, Xiangyang Liu, Tianxiang Sun, Xiaoran Liu...

TL;DR本研究解决了目前缺乏有效评估大语言模型（LLMs）处理长文脉络能力的基准问题。通过推出DetectiveQA，一个以侦探小说为数据源的叙述推理基准，我们引入了新的评估维度，强调从长文脉络中提取证据并进行推理的能力。结果表明，现有的长文脉络LLMs在处理真实的长文脉络依赖问题上仍需大幅提升。

Abstract

With the rapid advancement of Large Language Models (LLMs), long-context information understanding and processing have become a hot topic in academia and industry. However, benchmarks for evaluating the ability of LLMs to handle long-context information do not seem to have kept pace wi

发现论文，激发创造

LOT：面向叙事的中文长文本理解与生成基准评测

为了评估和公平比较不同模型的长文本处理能力，我们提出了一个名为LOT的以故事为中心的基准测试，并发布了一个名为LongLM的编码器 - 解码器型中文长文本预训练模型，训练了两个生成任务和120G中文小说，LongLM在LOT中表现出在不同理解和生成任务方面优异的性能，胜过同等规模的预训练模型。

Aug, 2021

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入LongBench，对8个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

LooGLE: 长文本语言模型是否理解长文本上下文?

基于LooGLE评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

无穷Bench：将长上下文评估扩展至10万标记

大语言模型处理长上下文是许多实际应用的关键，有必要评估和比较它们在处理100K+上下文时的能力。本文提出了第一个超过100K标记平均数据长度的大语言模型基准测试，对处理长上下文的现有模型进行了评价，并提出了对处理长上下文的大语言模型行为的三个有趣分析。

Feb, 2024

CLongEval: 用于评估长文本大语言模型的中文基准

我们提出了一个用于评估长文本上下文下的大型语言模型的全面中文基准测试——CLongEval，特点是足够的数据量、广泛的适用性和高质量。通过对6个开源长文本上下文大型语言模型和2个领先的商业对手进行评估，我们对长文本上下文模型的关键能力进行了深入分析，并提供了数据集、评估脚本和模型输出。

Mar, 2024

NovelQA: 一个长距离小说问答基准

使用英文小说构建的NovelQA评估长上下文具有深层文本理解能力的LLMs的表现，结果强调了LLMs在多次推理、注重细节的问题和超过100,000个标记的极长输入方面面临的挑战，强调了进一步改进LLMs以提高其长上下文理解和计算文学研究的必要性。

Mar, 2024

XL$^2$Bench：极长上下文理解与长距离依赖的基准测试

我们介绍了一个长文本理解的基准测试XL2Bench，其中包含三个场景：小说阅读、论文阅读和法律阅读，以及四个难度递增的任务：记忆检索、细节理解、整体理解和开放式生成，涵盖了27个子任务，用英文和中文表示，平均长度为100K+词（英文）和200K+字符（中文）。我们评估了六个领先的大型语言模型在XL2Bench上的表现，发现它们的性能明显落后于人类水平。此外，我们观察到在原始数据集和增强数据集上的性能下降，凸显了我们缓解数据污染的方法的有效性。

Apr, 2024

BABILong: 长篇背景下的LLMs极限测试和筛选

在这项研究中，我们介绍了BABILong基准测试，用于评估大型语言模型在处理长上下文时的效率。评估结果表明，目前流行的语言模型仅有效地利用上下文的10-20％，并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中，使用检索增强生成方法能够以最高60％的准确率回答单个事实问题，而与上下文长度无关。对于上下文扩展方法，采用循环记忆变压器可以处理长度达1100万个标记。BABILong基准测试可以扩展到任意长度，以支持评估具有更强能力的新模型，并为1百万个标记长度提供了分割。

Jun, 2024

不留下任何文件: 扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

NeedleBench: LLM能否在一百万上下文窗口中进行检索和推理？

评估大型语言模型在长文本情境下的能力，提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench，并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明，当前的大型语言模型在实际长文本应用中仍有很大的改进空间。

Jul, 2024