InternVideo2：面向多模态视频理解的视频基础模型的扩展

Mar, 2024

InternVideo2：面向多模态视频理解的视频基础模型的扩展

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding

Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He...

TL;DR我们介绍 InternVideo2，这是一种新的视频基础模型（ViFM），在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式，统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督学习框架。不同的训练阶段通过不同的预训练任务引导我们的模型捕捉不同层次的结构和语义信息。在数据层面上，我们通过对视频进行语义分割和生成视频 - 音频 - 语音字幕来优先考虑时空一致性，从而提高了视频和文本之间的对齐性。我们为 InternVideo2 扩展了数据和模型规模。通过广泛的实验证明了我们的设计，并展示了在 60 多个视频和音频任务上的最先进性能。值得注意的是，我们的模型在各种与视频有关的字幕、对话和长期视频理解基准上优于其他模型，凸显了它在推理和理解长时间上下文方面的能力。代码和模型可在此 URL 获取。

Abstract

We introduce internvideo2, a new video foundation model (ViFM) that achieves the state-of-the-art performance in action recognition,

internvideo2 video foundation model action recognition video-text tasks video-centric dialogue

发现论文，激发创造

InternVid：大规模视频文本数据集，用于多模式理解和生成

本文介绍了 InternVid，一个大规模的以视频为中心的多模态数据集，旨在学习强大且可转移的视频 - 文本编码，在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频 - 文本数据集，并使用大型语言模型，展示了其在学习大规模视频 - 语言编码中的效力。

Jul, 2023

InternVL：扩展视觉基础模型并对通用视觉语言任务进行对齐

通过设计大规模的视觉语言基础模型 (InternVL)，其参数规模扩展到 60 亿，并逐步与大型语言模型对齐，该研究旨在推动视觉与视觉语言基础模型的发展与应用，以实现视觉感知任务的最新性能、多模式对话系统的构建和与大型语言模型的链接。

Dec, 2023

视频理解基础模型综述

此研究简化了近 200 种视频基础模型，对 14 个不同的视频任务进行了综合概述，并在这些任务中对 6 个最常见的任务进行了性能分析。该研究发现，图像为基础的模型在大多数视频理解任务上持续表现优异，而利用多种模式的通用基础模型在视频任务上表现卓越。

May, 2024

TVTSv2：学习开箱即用的大规模时空视觉表示

本论文分析了导致视频模型性能下降的因素 —— 语言监督失真，提出了一种去除降级的预训练策略，并采用排序任务同时使用掩蔽技术进行可扩展的训练，得到了一系列新的模型。

May, 2023

VLM: 任务无关的视频语言模型预训练，用于视频理解

提供了一种简化、任务无关的多模态预训练方法，可以接受视频或文本输入，或两者皆可用于各种端任务。实验结果表明，在多种任务中表现出比以前的方法更强的性能，通常优于任务特定的预训练。

May, 2021

扩展语言图像预训练模型以实现通用视频识别

本文提出一种简单有效的方法，将预先训练好的语言 - 图像模型直接应用于视频识别中，使用跨帧注意力机制及视频特定提示方案，实现对长时序列的检测，提高了零样本下的准确率。

Aug, 2022

ChatVideo: 基于 Tracklet 的多模式通用视频理解系统

本文提出了一种基于轨迹为中心的多模态视频理解原型系统，使用各种视频基础模型（ViFMs）注释其特性，存储在数据库中，并通过数据库管理器与用户交互，以解决各种视频相关问题。

Apr, 2023

VideoGLUE: 视频通用理解基础模型评估

通过使用三种典型任务、八个备受社区欢迎的数据集和四种适配方法评估现有基础模型在视频理解方面的能力，并提出了一种衡量基础模型在适应一般视频理解任务时的有效性和效率的 VideoGLUE 分数 (VGS)。研究发现，与自然语言和图像理解中的基础模型成就形成鲜明对比，专门任务模型在本文所研究的六个基础模型中表现出显著的优势；包含视频模态的本机视频基础模型在分类富有动态的视频、时间定位动作和理解多个动作的视频方面通常表现更好；本机视频基础模型在轻微适配下（如冻结 FM 骨干）可以在视频任务上表现良好，而图像本机基础模型则在全面端到端的微调中胜出。前两项观察结果揭示了在视频基础模型方面进行研究的需求和巨大机遇，最后一项结果确认了在评估基础模型时任务和适配方法均起到重要作用。

Jul, 2023

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024

通过高效的后预训练来获取视频基础模型

我们提出了一种从图像模型中收集视频基础模型的有效框架，方法简单直观，通过随机删除输入视频补丁和屏蔽输入文本来显著提高训练效率，并强化跨模态融合的学习，该方法在多种视频语言下游任务中取得了顶尖性能，具有极高的效率，只需要 WebVid-10M 作为预训练数据，希望我们的方法能够成为常见视频基础模型的简单但强大的替代品，提供构建这些模型的有用见解，并使大型预训练模型更易于获取和持续发展。

Oct, 2023