MMLongBench-Doc: 用视觉化评估长上下文文档理解技术的基准测试

Jul, 2024

MMLongBench-Doc: 用视觉化评估长上下文文档理解技术的基准测试

MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

Yubo Ma, Yuhang Zang, Liangyu Chen, Meiqi Chen, Yizhu Jiao...

TL;DR通过构建一个多模式长上下文的基准数据集，本研究表明长上下文文档理解对于当前的大型视觉 - 语言模型 (LVLMs) 来说是个巨大挑战，并验证了未来研究更强大的长上下文 LVLMs 的必要性。

Abstract

Understanding documents with rich layouts and multi-modal components is a long-standing and practical task. Recent Large Vision-Language Models (LVLMs) have made remarkable strides in various tasks, particularly

documents layout multi-modal long-context benchmark

发现论文，激发创造

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

XL$^2$Bench：极长上下文理解与长距离依赖的基准测试

我们介绍了一个长文本理解的基准测试 XL2Bench，其中包含三个场景：小说阅读、论文阅读和法律阅读，以及四个难度递增的任务：记忆检索、细节理解、整体理解和开放式生成，涵盖了 27 个子任务，用英文和中文表示，平均长度为 100K + 词（英文）和 200K + 字符（中文）。我们评估了六个领先的大型语言模型在 XL2Bench 上的表现，发现它们的性能明显落后于人类水平。此外，我们观察到在原始数据集和增强数据集上的性能下降，凸显了我们缓解数据污染的方法的有效性。

Apr, 2024

LV-Eval: 5 个长度级别高达 256K 的平衡长上下文基准测试

该论文介绍了 LV-Eval，一个具有不同上下文长度的具有挑战性的长上下文测试基准，包含单跳问答和多跳问答两个主要任务，通过混淆事实插入、关键词和短语替换以及基于关键词回忆的度量设计等三种关键技术，解决了主流基准测试中的不足之处，并评估了 10 种语言模型在 LV-Eval 上的表现。

Feb, 2024

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

MuLD: 多任务长文档基准

MuLD 是一个以文档长度为 10,000 个标记的新型长文档基准，旨在测试自然语言处理任务在长文档上的性能和解决方法。研究结果表明，使用增加上下文长度的 Transformer 模型能更好地解决该基准中的任务，这为进一步研究提供了启示。

Feb, 2022

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

ConTextual: 大型多模态模型中的上下文敏感的文本丰富视觉推理评估

AI 研究纸提出了 ConTextual，它是一个新颖的基准测试，旨在评估 LMM 在上下文敏感的文本丰富的视觉推理方面的能力，发现最佳表现的 LMM 与人类能力存在 30.8％的性能差距，表明上下文敏感的文本丰富的视觉推理仍有改进空间。

Jan, 2024