MuLD: 多任务长文档基准

Feb, 2022

MuLD: The Multitask Long Document Benchmark

G Thomas Hudson, Noura Al Moubayed

TL;DRMuLD 是一个以文档长度为 10,000 个标记的新型长文档基准，旨在测试自然语言处理任务在长文档上的性能和解决方法。研究结果表明，使用增加上下文长度的 Transformer 模型能更好地解决该基准中的任务，这为进一步研究提供了启示。

Abstract

The impressive progress in nlp techniques has been driven by the development of multi-task benchmarks such as GLUE and SuperGLUE. While these benchmarks focus on tasks for one or two input sentences, there has been exciting work in designing efficient techniques for processing much lon

nlp techniques muld benchmark long-term dependencies efficient transformers efficient nlp models

发现论文，激发创造

SCALE：高级语言模型评估复杂度的扩展

该研究引入了一个基于瑞士法律系统的多维 NLP 基准测试，包括长文本处理、领域特定知识拥有、多语言理解、多任务等挑战，该基准测试可以用于测试和推广最先进的 LLMs 模型。

Jun, 2023

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

M4LE: 一个适用于大型语言模型的多能力多范围多任务多领域长上下文评估基准

我们提出了一个针对大型语言模型的多能力、多范围、多任务、多领域的长上下文评估基准（M4LE），并通过在 36 个 NLP 数据集、11 种任务类型和 12 个领域中用多样的 NLP 任务池来支持它。我们的研究揭示了当前的大型语言模型在理解长上下文方面的困难，尤其是在需要多个跨度注意力的任务上。我们的工作对于未来在这个具有挑战性的领域的研究具有有价值的参考价值。

Oct, 2023

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

LongHealth：具有长医疗文件的问答基准

LLMs 在处理医疗保健领域的大量患者记录方面具有潜在的优势，但现有的基准测试不能充分评估 LLMs 在处理真实世界中的冗长临床数据方面的能力。通过提供包含 20 个详细虚构病例的 LongHealth 基准测试，每个案例包含 5090 至 6754 个单词，我们评估了九个开源 LLMs，并将 OpenAI 的专有成本效益高的 GPT-3.5 Turbo 作为比较。结果显示，Mixtral-8x7B-Instruct-v0.1 在从单个和多个患者文档中检索信息的任务上表现最好，但所有模型在需要识别缺失信息的任务中遇到了很大困难，强调了临床数据解释中需要改进的关键领域。然而，当前 LLMs 的准确性水平对于可靠的临床使用是不足的，尤其是在需要识别缺失信息的情景中。LongHealth 基准测试提供了在医疗保健环境中更真实的 LLMs 评估，并强调了进一步改进模型以实现安全有效的临床应用的需要。我们公开提供基准测试和评估代码。

Jan, 2024

MMLongBench-Doc: 用视觉化评估长上下文文档理解技术的基准测试

通过构建一个多模式长上下文的基准数据集，本研究表明长上下文文档理解对于当前的大型视觉 - 语言模型 (LVLMs) 来说是个巨大挑战，并验证了未来研究更强大的长上下文 LVLMs 的必要性。

Jul, 2024

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

XL$^2$Bench：极长上下文理解与长距离依赖的基准测试

我们介绍了一个长文本理解的基准测试 XL2Bench，其中包含三个场景：小说阅读、论文阅读和法律阅读，以及四个难度递增的任务：记忆检索、细节理解、整体理解和开放式生成，涵盖了 27 个子任务，用英文和中文表示，平均长度为 100K + 词（英文）和 200K + 字符（中文）。我们评估了六个领先的大型语言模型在 XL2Bench 上的表现，发现它们的性能明显落后于人类水平。此外，我们观察到在原始数据集和增强数据集上的性能下降，凸显了我们缓解数据污染的方法的有效性。

Apr, 2024

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

使用 Transformer 高效分类长文档

本文提供了一个广泛的长文本分类的基准测试方法，包括二分类、多分类、多标签分类任务，研究发现更复杂的模型并不总是优于简单的基准模型，并且在不同数据集上表现不稳定，因此需要未来研究考虑更全面的基准模型和数据集以开发出更为稳健的模型。

Mar, 2022