VANE-Bench: 用于会话式 LMM 的视频异常评估基准
视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
Nov, 2023
通过引入全面的多模式视频理解基准 (MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型 (MLLMs) 的时间理解能力,并且开发了一种强大的视频 MLLM 基准模型 VideoChat2,检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。
Nov, 2023
通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
Jun, 2024
视频异常检测 (VAD) 旨在暂时定位视频中的异常事件。本文提出了一种名为 LAnguage-based VAD (LAVAD) 的方法,利用预训练的大型语言模型 (LLMs) 和现有的视觉 - 语言模型 (VLMs) 来处理 VAD,通过生成每个测试视频的文字描述,设计了一种启动机制,将 LLMs 转化为有效的视频异常检测器,并结合跨模态相似度进行清理和改善 LLMs 的基于异常评分的方法。在两个具有真实监控场景的大型数据集 (UCF-Crime 和 XD-Violence) 上评估 LAVAD,结果显示它在不需要任何训练或数据收集的情况下优于无监督和单类方法。
Apr, 2024
多模态大型语言模型的最新进展在短视频(通常不超过一分钟)的理解方面取得了显著的提升,并相应产生了多个评估数据集。然而,这些进展还不足以满足现实世界应用的需求,如长期决策的具身智能、深入的电影评论和讨论,以及现场体育评论,这些都需要对数小时的长视频进行理解。为了弥补这一差距,我们介绍了专门设计用于长视频理解的基准测试集 LVBench。我们的数据集包括来源于公共的视频,囊括了一组多样化的任务,旨在进行长视频理解和信息抽取。LVBench 旨在挑战多模态模型展示长期记忆和扩展理解能力。我们进行了大量的评估,结果显示当前的多模态模型在这些具有挑战性的长视频理解任务上表现不佳。通过 LVBench,我们旨在推动更先进的模型的发展,以应对长视频理解的复杂性。我们的数据和代码在以下链接公开可用:this https URL
Jun, 2024
视频异常检测已引起日益关注,然而目前主要集中于在线帧级别的异常检测任务,而不是利用详细描述来检索异常事件,因此我们提出了一种名为视频异常检索(VAR)的新任务,旨在通过跨模态方法检索相关的异常视频,并设计了一个名为 Anomaly-Led Alignment Network(ALAN)的模型来实现。
Jul, 2023
本文介绍了一种基于视频的大型语言模型在视频异常检测中的应用,该方法不需要阈值,并能解释检测到的异常事件。通过引入长期上下文网络模块和三阶段训练方法,提高了模型的性能并降低了数据需求和标注成本,该方法在 UCF-Crime 和 TAD 基准测试中实现了优异的性能。
Jan, 2024
提出 Holmes-VAD,一种新颖的框架,利用精确的时间监督和丰富的多模态指令,实现准确的异常定位和全面的解释。
Jun, 2024
大型多模态模型处理越来越长且更丰富的输入。我们引入了 LongVideoBench,这是一个问题回答基准,具有长达一小时的视频语言交叉输入。我们的基准包括 3,763 个不同长度的网络收集视频及其字幕,涵盖多种主题,旨在全面评估长期多模态理解中的大型多模态模型。我们将主要挑战解释为准确检索和推理长输入中的详细多模态信息。因此,我们提出了一项新颖的视频问题回答任务,称为参考推理。在问题的一部分中,它包含一个参考查询,引用相关视频上下文,称为被引用的上下文。然后,模型需要从被引用的上下文中推理相关视频细节。根据参考推理的范例,我们在 17 个细粒度类别中收集了 6,678 个由人类标注的多选问题,构建了一个最全面的长格式视频理解基准之一。评估表明,即使对于最先进的专有模型(例如 GPT-4o,Gemini-1.5-Pro,GPT-4-Turbo),LongVideoBench 也具有显著的挑战,而其开源对应模型表现出更大的性能差距。此外,我们的结果表明,在模型能够处理更多帧的情况下,其在基准上的性能才会提高,这使得 LongVideoBench 成为评估未来一代长上下文多模态模型的宝贵基准。
Jul, 2024