视频多媒体语言模型基准测试的可扩展合成框架

Jun, 2024

视频多媒体语言模型基准测试的可扩展合成框架

Needle In A Video Haystack: A Scalable Synthetic Framework for Benchmarking Video MLLMs

Zijia Zhao, Haoyu Lu, Yuqi Huo, Yifan Du, Tongtian Yue...

TL;DRVideoNIAH 是一个简单但高度可伸缩的基准构建框架，通过合成视频生成，将测试视频内容与查询 - 响应解耦，并通过插入多个不相关的图像 / 文本 ' 针' 来生成注释，从而确保视频来源的多样性和各种查询 - 响应。

Abstract

video understanding is a crucial next step for multimodal large language models (MLLMs). To probe specific aspects of video understanding ability, existing video benchmarks typically require careful video selecti

video understanding multimodal large language models benchmark construction framework videoniah video benchmark

发现论文，激发创造

多模态编辑中的关键问题

这篇论文介绍了第一个专门设计来系统评估现有多模态大型语言模型对长文本多模态内容理解能力的基准测评 MM-NIAH，并指出现有模型在这些任务上仍有显著的改进空间，特别是在以视觉为中心的评估上。

Jun, 2024

多模态大语言模型的长上下文能力基准测试

对多模态大语言模型进行了全面评估，介绍了一种用于长上下文能力评估的基准测试方法，包括多图像输入和图像拼接，以加大输入上下文长度，并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述，对 MLLMs 在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示 GPT-4o 在长上下文情景中始终优于其他模型，但在负样本（即针未在抽屉中）中存在错误信息生成问题。此外，对 API 模型和开源模型进行了综合的长上下文评估，显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。

Jun, 2024

语境长距离从语言到视觉的转换

通过扩展语言模型的上下文长度，我们实现了视频片段中的长上下文传递，使得大型多模态模型能够理解数量级更多的视觉标记，并开发了一个纯合成的长视觉基准测试，证明了 Long Video Assistant（LongVA）在处理长视频方面的优越性能。

Jun, 2024

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准 (MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型 (MLLMs) 的时间理解能力，并且开发了一种强大的视频 MLLM 基准模型 VideoChat2，检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。

Nov, 2023

LVBench：极长视频理解基准

多模态大型语言模型的最新进展在短视频（通常不超过一分钟）的理解方面取得了显著的提升，并相应产生了多个评估数据集。然而，这些进展还不足以满足现实世界应用的需求，如长期决策的具身智能、深入的电影评论和讨论，以及现场体育评论，这些都需要对数小时的长视频进行理解。为了弥补这一差距，我们介绍了专门设计用于长视频理解的基准测试集 LVBench。我们的数据集包括来源于公共的视频，囊括了一组多样化的任务，旨在进行长视频理解和信息抽取。LVBench 旨在挑战多模态模型展示长期记忆和扩展理解能力。我们进行了大量的评估，结果显示当前的多模态模型在这些具有挑战性的长视频理解任务上表现不佳。通过 LVBench，我们旨在推动更先进的模型的发展，以应对长视频理解的复杂性。我们的数据和代码在以下链接公开可用：this https URL

Jun, 2024

一段视频胜过万言：利用多样化字幕进行更好的长视频检索的训练和基准测试

通过对长视频生成多样的合成标题，使用大型语言模型评估长视频检索系统的能力，并提出轻量级微调方法（基于对不同标题中信息层级的差异进行对比损失学习），在下游的段落 - 视频检索任务以及使用合成数据计算的各种长视频检索度量上均有明显提升。

Nov, 2023

SEED-Bench: 用生成理解评估多模态 LLMs 的基准

基于强大的大型语言模型（LLMs），最近的生成式多模态大型语言模型（MLLMs）作为一个关键的研究领域备受关注，展示了出色的理解和生成能力。本研究通过引入一个名为 SEED-Bench 的基准测试，解决了 MLLMs 生成理解的评估问题，该基准测试包含 19K 个准确的多项选择问题（是现有基准测试的 6 倍大），涵盖了 12 个评估维度，包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题，该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能，在评估过程中无需人类或 GPT 的干预。我们进一步评估了 18 个模型在所有 12 个维度上的性能，涵盖了空间和时间的理解。通过评估结果揭示现有 MLLMs 的局限性，我们希望 SEED-Bench 为激发未来的研究提供见解。我们将建立并持续维护一个排行榜，为社区提供评估和研究模型能力的平台。

Jul, 2023

InfiniBench：用于非常长视频理解的大规模多模态模型综合基准测试

理解长视频的困难和挑战，现有的基准测试主要关注较短的视频片段。为了弥补这一差距，我们引入了 InfiniBench，这是一个全面的、针对非常长视频理解的基准测试，它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大型多模态模型进行评估，我们发现这个基准测试存在着重大挑战。希望这个基准测试能够促进多模态模型社区对长视频和人类级别理解的研究。

Jun, 2024