VideoGLUE: 视频通用理解基础模型评估

Jul, 2023

VideoGLUE: 视频通用理解基础模型评估

VideoGLUE: Video General Understanding Evaluation of Foundation Models

Liangzhe Yuan, Nitesh Bharadwaj Gundavarapu, Long Zhao, Hao Zhou, Yin Cui...

TL;DR通过使用三种典型任务、八个备受社区欢迎的数据集和四种适配方法评估现有基础模型在视频理解方面的能力，并提出了一种衡量基础模型在适应一般视频理解任务时的有效性和效率的 VideoGLUE 分数 (VGS)。研究发现，与自然语言和图像理解中的基础模型成就形成鲜明对比，专门任务模型在本文所研究的六个基础模型中表现出显著的优势；包含视频模态的本机视频基础模型在分类富有动态的视频、时间定位动作和理解多个动作的视频方面通常表现更好；本机视频基础模型在轻微适配下（如冻结 FM 骨干）可以在视频任务上表现良好，而图像本机基础模型则在全面端到端的微调中胜出。前两项观察结果揭示了在视频基础模型方面进行研究的需求和巨大机遇，最后一项结果确认了在评估基础模型时任务和适配方法均起到重要作用。

Abstract

We evaluate existing foundation models video understanding capabilities using a carefully designed experiment protocol consisting of three hallmark tasks (action recognition, temporal localization, and spatiotemp

foundation models video understanding task-specialized models video-native fms adaptation methods

发现论文，激发创造

视频理解基础模型综述

此研究简化了近 200 种视频基础模型，对 14 个不同的视频任务进行了综合概述，并在这些任务中对 6 个最常见的任务进行了性能分析。该研究发现，图像为基础的模型在大多数视频理解任务上持续表现优异，而利用多种模式的通用基础模型在视频任务上表现卓越。

May, 2024

构建通用的语言、视觉和视觉语言理解任务的基础模型

本文介绍了一种新的通用的基础模型 X-FM，它能够处理语言、视觉和视觉与语言的理解任务，并且在多个基准数据集上表现出比现有的通用模型更好的性能。

Jan, 2023

InternVideo2：面向多模态视频理解的视频基础模型的扩展

我们介绍 InternVideo2，这是一种新的视频基础模型（ViFM），在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式，统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督学习框架。不同的训练阶段通过不同的预训练任务引导我们的模型捕捉不同层次的结构和语义信息。在数据层面上，我们通过对视频进行语义分割和生成视频 - 音频 - 语音字幕来优先考虑时空一致性，从而提高了视频和文本之间的对齐性。我们为 InternVideo2 扩展了数据和模型规模。通过广泛的实验证明了我们的设计，并展示了在 60 多个视频和音频任务上的最先进性能。值得注意的是，我们的模型在各种与视频有关的字幕、对话和长期视频理解基准上优于其他模型，凸显了它在推理和理解长时间上下文方面的能力。代码和模型可在此 URL 获取。

Mar, 2024

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023

LLM4VG：大型语言模型对视频定位的评估

近年来，研究人员试图调查 LLM 在处理视频方面的能力，并提出了几种视频 LLM 模型。然而，LLM 在处理视频对齐（VG）方面的能力仍然不清楚，也没有在文献中进行探索。为了填补这一空白，本文提出了 LLM4VG 基准测试，对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG，我们设计了大量实验，检查了两组视频 LLM 模型在视频对齐上的表现：（i）基于文本 - 视频对训练的视频 LLM（标记为 VidLLM），以及（ii）与预训练的视觉描述模型（如视频 / 图像字幕模型）结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法，包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较，并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论：（i）现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走，需要进一步微调这些模型以包含更多的与时间相关的视频任务；（ii）LLM 和视觉模型的组合显示出初步的视频对齐能力，通过采用更可靠的模型和进一步的提示指导，这种能力具有可观的改进潜力。

Dec, 2023

应用 VLM 辅助训练提升视频变换器的动作理解能力

提出了一种利用 Vision Transformers（ViTs）和 Visual Language Models（VLMs）之间的互补优势的 Four-tiered Prompts（FTP）框架，通过改进视觉编码并对齐 VLM 输出，从而实现对视频中人类行为的具体方面的处理，对 Kinetics-400 和 Something-Something V2 数据集上的视频行为理解任务分别达到了 93.8% 和 83.4% 的顶级准确率，超过 VideoMAEv2 分别 2.8% 和 2.6%。

Mar, 2024

FM-OV3D：面向开放词汇的基于基础模型的跨模态知识融合的 3D 目标检测

基于各种基础模型的跨模态知识融合方法可以提高 3D 模型的开放性词汇能力，并成功实现了在开放性 3D 目标检测任务中领先的性能。

Dec, 2023

深入了解视频文本模型的运动表示

通过引入生成的 GPT-4 运动描述应用于三个行动数据集并在运动描述检索任务上评估几种视频 - 文本模型，本研究探讨了视频与图片的信息性差异，着重关注视频 - 文本模型对于视频中运动的理解以及需要在现有数据集中加入细致动作信息的问题，并证明了利用动作描述提高视频 - 文本模型对于细致动作的理解的方法的有效性。

Jun, 2024

视频（语言）建模：自然视频生成模型的基线

本文提出了一种用于无监督特征学习的视频数据的强基线模型，通过学习预测输入视频序列中缺少的帧或外推未来帧，该模型发现了对于表示复杂变形和运动模式有用的空间和时间相关性，并且是借鉴语言建模文献，通过将图像补丁的空间量化为一个大字典，适应了视觉领域。我们在填充和生成任务上演示了该方法。第一次，我们展示了在自然视频上训练后，这样一个模型可以预测短视频序列中的非平凡运动。

Dec, 2014

深入多模态多任务基础模型探索道路场景理解：从学习范式视角

基于多模态多任务视觉理解基础模型（MM-VUFMs）的研究综述，旨在提供道路场景下 MM-VUFMs 的综合概述，包括任务特定模型、统一多模态模型、统一多任务模型和基础模型推进技术，并突出其在不同学习范式中的高级能力。

Feb, 2024