Video-Bench:用于评估基于视频的大型语言模型的综合基准和工具包
通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
Jun, 2024
多模态大型语言模型的最新进展在短视频(通常不超过一分钟)的理解方面取得了显著的提升,并相应产生了多个评估数据集。然而,这些进展还不足以满足现实世界应用的需求,如长期决策的具身智能、深入的电影评论和讨论,以及现场体育评论,这些都需要对数小时的长视频进行理解。为了弥补这一差距,我们介绍了专门设计用于长视频理解的基准测试集 LVBench。我们的数据集包括来源于公共的视频,囊括了一组多样化的任务,旨在进行长视频理解和信息抽取。LVBench 旨在挑战多模态模型展示长期记忆和扩展理解能力。我们进行了大量的评估,结果显示当前的多模态模型在这些具有挑战性的长视频理解任务上表现不佳。通过 LVBench,我们旨在推动更先进的模型的发展,以应对长视频理解的复杂性。我们的数据和代码在以下链接公开可用:this https URL
Jun, 2024
通过综述表明,利用大型语言模型(LLMs)的能力,视频理解工具的发展具有巨大的潜力,并且在空间时间推理和通识知识方面表现出令人惊讶的优势,还展示了在各个领域中应用的强大可扩展性和多功能性。
Dec, 2023
本文提出了一个统一的评估方法,包括字幕、问答、检索和行动识别等多个视频任务,展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现,同时也展示了一种简单的基准方法 Video-LLaVA,在评估视频 LLMs 时优于现有方法。此外,我们还在实际驾驶场景中评估了视频 LLMs 的有效性,并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法,并帮助扩展更多实际应用场景。
Nov, 2023
通过引入全面的多模式视频理解基准 (MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型 (MLLMs) 的时间理解能力,并且开发了一种强大的视频 MLLM 基准模型 VideoChat2,检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。
Nov, 2023
本文提出了一种名为 VideoLLM 的新框架,它利用了自然语言处理(NLP)预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器,将不同来源的输入转换为统一的标记序列,然后将其馈入仅解码的 LLM 中。在实验中,作者评估了 VideoLLM 在多个任务上的表现,证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。
May, 2023
在这篇论文中,我们介绍了 Video-MME,这是第一个全方位的、多模式评估基准测试,用于评估 MLLMs 在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种 MLLMs,并发现商业模型 Gemini 1.5 Pro 的性能最佳,明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。
May, 2024
通过提供综合评估多模态大型模型在视频理解和推理中的性能的全方位评估基准 VideoVista,本文揭示了视频 LMM 面临的困难、推理能力的不足以及开源视频 LMM 的性能低于 GPT-4o 和 Gemini-1.5 的问题,强调了 VideoVista 在推进精确理解视频和执行精准推理的 LMM 中的关键作用。
Jun, 2024
理解长视频的困难和挑战,现有的基准测试主要关注较短的视频片段。为了弥补这一差距,我们引入了 InfiniBench,这是一个全面的、针对非常长视频理解的基准测试,它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大型多模态模型进行评估,我们发现这个基准测试存在着重大挑战。希望这个基准测试能够促进多模态模型社区对长视频和人类级别理解的研究。
Jun, 2024
介绍了 TempCompass 基准测试,该基准测试引入了多样化的时间感知和任务格式,全面评估了 8 种最新的视频大语言模型以及 3 种图像大语言模型,并揭示了这些模型在时间感知方面表现出明显的不足。
Mar, 2024