多模态大语言模型的长上下文能力基准测试

Jun, 2024

多模态大语言模型的长上下文能力基准测试

Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang...

TL;DR对多模态大语言模型进行了全面评估，介绍了一种用于长上下文能力评估的基准测试方法，包括多图像输入和图像拼接，以加大输入上下文长度，并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述，对 MLLMs 在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示 GPT-4o 在长上下文情景中始终优于其他模型，但在负样本（即针未在抽屉中）中存在错误信息生成问题。此外，对 API 模型和开源模型进行了综合的长上下文评估，显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。

Abstract

multimodal large language models (MLLMs) have shown significant promise in various applications, leading to broad interest from researchers and practitioners alike. However, a comprehensive evaluation of their long-context capabilities remains underexplored. To address these gaps, we i

multimodal large language models long-context capabilities multimodal needle-in-a-haystack image stitching mllm evaluation

发现论文，激发创造

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

多模态编辑中的关键问题

这篇论文介绍了第一个专门设计来系统评估现有多模态大型语言模型对长文本多模态内容理解能力的基准测评 MM-NIAH，并指出现有模型在这些任务上仍有显著的改进空间，特别是在以视觉为中心的评估上。

Jun, 2024

基于内存的大型语言模型中的针头引线

本文展示了使用增强记忆的大型语言模型（LLM）架构在提高从潜在长上下文中召回事实的能力方面的好处。我们以 LARIMAR 为案例研究，它是最近提出的一种 LLM 架构，通过在 LLM 解码器上增加外部关联内存来增强性能，并在几个长上下文召回任务中进行测试，包括密码测试和大海捞针测试。我们证明了测试时可以适应比训练中观察到的更长上下文，同时保持经过训练的解码器可以识别的内存读出结果，而不增加 GPU 内存占用。与参数数量相近的长上下文召回任务的其他替代架构相比，LARIMAR 可以在没有任何特定任务训练的情况下保持强大的性能。

Jul, 2024

LLM 亲境召回取决于提示

通过使用 needle-in-a-haystack 方法分析各种大型语言模型的上下文召回性能，我们的研究表明模型的成功检索能力不仅取决于提示内容，而且还可能受到训练数据中的偏见的影响。相反，通过对模型架构、训练策略或微调进行调整可以提高性能，我们的分析揭示了关于大型语言模型行为的见解，为开发更有效的应用提供了指导。

Apr, 2024

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对 23 个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

从人工针到真实大量数据集：通过在合成数据上进行微调来改进 LLMs 的检索能力

利用合成数据集对大型语言模型进行微调，显著提高了其在长上下文环境下的信息检索和推理能力。

Jun, 2024

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

图像中的视觉针在感知和描述的背景中很容易迷失

LoCoVQA 是一个用于评估视觉语言模型（VLM）中的长篇上下文抽取推理的动态基准生成器。该测试评估了 VLM 在回答问题时如何忽略无关信息的能力，表明目前的最先进 VLM 在许多长篇上下文应用中缺乏这种关键能力。

Jun, 2024

M4LE: 一个适用于大型语言模型的多能力多范围多任务多领域长上下文评估基准

我们提出了一个针对大型语言模型的多能力、多范围、多任务、多领域的长上下文评估基准（M4LE），并通过在 36 个 NLP 数据集、11 种任务类型和 12 个领域中用多样的 NLP 任务池来支持它。我们的研究揭示了当前的大型语言模型在理解长上下文方面的困难，尤其是在需要多个跨度注意力的任务上。我们的工作对于未来在这个具有挑战性的领域的研究具有有价值的参考价值。

Oct, 2023

RepoQA：评估长上下文的代码理解

RepoQA 是一个多语言且综合性的基准测试，评估了 LLMs 在长上下文代码理解上的能力，并展示了开源和专有模型之间仍存在着一小段差距，不同模型在不同编程语言上具有良好的表现，而没有注释的代码可能会更好地被模型理解。

Jun, 2024