ELITR-Bench：面向长篇对话的语言模型评测

Mar, 2024

ELITR-Bench：面向长篇对话的语言模型评测

ELITR-Bench: A Meeting Assistant Benchmark for Long-Context Language Models

Thibaut Thonet, Jos Rozen, Laurent Besacier

TL;DR我们的研究提出了一个新的长文本上下文大型语言模型测试基准，名为 ELITR-Bench，侧重于实际的会议助手场景。我们使用 271 个手工制作的问题和其真实答案来增强现有的 ELITR 语料库的转录文本，实验结果显示当前公开源代码和专有模型之间在 ELITR-Bench 上存在差距，尤其是在对话中顺序提问的情况下。我们还对基于 GPT-4 的评估方法进行了详细分析，包括来自众包研究的见解，发现 GPT-4 的评估得分与人工评判的相关性较高，但在区分超过三个得分水平时其能力可能受到限制。

Abstract

Research on large language models (LLMs) has recently witnessed an increasing interest in extending models' context size to better capture dependencies within long documents. While benchmarks have been proposed to assess long-range abilities, existing efforts primarily considered gener

large language models long-context llms elitr-bench meeting assistant scenario gpt-4-based evaluation method

发现论文，激发创造

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

L-Eval: 长上下文语言模型的标准化评估实施

我们提出了评估长上下文语言模型的标准化评估方法，开发了包含 411 个长文档和超过 2,000 个查询 - 回复对的 L-Eval，经过作者手工注释和检查。结果表明，开源模型在开放式任务和封闭式任务上都表现出令人印象深刻的性能，其中 LLaMA2 在 4k 上下文长度的开放式任务中获得最佳结果，而 ChatGLM2 在 8k 输入标记的封闭式任务中取得最佳结果。

Jul, 2023

BABILong: 长篇背景下的 LLMs 极限测试和筛选

在这项研究中，我们介绍了 BABILong 基准测试，用于评估大型语言模型在处理长上下文时的效率。评估结果表明，目前流行的语言模型仅有效地利用上下文的 10-20％，并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中，使用检索增强生成方法能够以最高 60％的准确率回答单个事实问题，而与上下文长度无关。对于上下文扩展方法，采用循环记忆变压器可以处理长度达 1100 万个标记。BABILong 基准测试可以扩展到任意长度，以支持评估具有更强能力的新模型，并为 1 百万个标记长度提供了分割。

Jun, 2024

XL$^2$Bench：极长上下文理解与长距离依赖的基准测试

我们介绍了一个长文本理解的基准测试 XL2Bench，其中包含三个场景：小说阅读、论文阅读和法律阅读，以及四个难度递增的任务：记忆检索、细节理解、整体理解和开放式生成，涵盖了 27 个子任务，用英文和中文表示，平均长度为 100K + 词（英文）和 200K + 字符（中文）。我们评估了六个领先的大型语言模型在 XL2Bench 上的表现，发现它们的性能明显落后于人类水平。此外，我们观察到在原始数据集和增强数据集上的性能下降，凸显了我们缓解数据污染的方法的有效性。

Apr, 2024

无穷 Bench：将长上下文评估扩展至 10 万标记

大语言模型处理长上下文是许多实际应用的关键，有必要评估和比较它们在处理 100K + 上下文时的能力。本文提出了第一个超过 100K 标记平均数据长度的大语言模型基准测试，对处理长上下文的现有模型进行了评价，并提出了对处理长上下文的大语言模型行为的三个有趣分析。

Feb, 2024

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

Ada-LEval：使用可调整长度基准评估长上下文语言模型

我们引入了 Ada-LEval，这是一个适用于评估 LLM 长上下文理解能力的长度可适应性基准测试，包括两个具有挑战性的子集 TSort 和 BestAnswer，通过评估 4 个最先进的闭源 API 模型和 6 个开源模型，证明了目前 LLM 在超长上下文环境中的局限性。

Apr, 2024

LongIns: 一个对 LLMs 具有挑战性的基于长文本上下文的考试

利用 LongIns benchmark dataset 在长背景下评估大型语言模型的推理性能及上下文窗口长度对其表现的影响。

Jun, 2024