ChatVideo: 基于 Tracklet 的多模式通用视频理解系统

Apr, 2023

ChatVideo: 基于 Tracklet 的多模式通用视频理解系统

ChatVideo: A Tracklet-centric Multimodal and Versatile Video Understanding System

Junke Wang, Dongdong Chen, Chong Luo, Xiyang Dai, Lu Yuan...

TL;DR本文提出了一种基于轨迹为中心的多模态视频理解原型系统，使用各种视频基础模型（ViFMs）注释其特性，存储在数据库中，并通过数据库管理器与用户交互，以解决各种视频相关问题。

Abstract

Existing deep video models are limited by specific tasks, fixed input-output spaces, and poor generalization capabilities, making it difficult to deploy them in real-world scenarios. In this paper, we present our vision for multimodal and versatile video understanding and propose a pro

deep video models multimodal video understanding vifms tracklet-centric paradigm video-related problems

发现论文，激发创造

将更多关注转移到视觉语言对象追踪上

我们设计了一种有效的视觉 - 语言表示方法，同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术，以及对不同模态之间进行对比损失的引入，我们能够显著改善追踪问题的解决方案，并期望将更多注意力转向视觉 - 语言追踪，为未来的多样化多模态消息追踪开辟更多可能性。

Jul, 2023

视频聊天：以聊天为中心的视频理解

本研究介绍了一种以视频为中心的语音理解系统 VideoChat，它通过可学习的神经接口将视频基础模型和大型语言模型集成起来，在时空推理、事件定位和因果关系推断等方面表现出色。通过使用视频为中心的指令数据集，我们为这个系统提供了有指导性的调整建议，这个数据集由成千上万个视频和详细的描述和会话组成，突出了时空推理和因果关系，为训练以聊天为中心的视频理解系统提供了有价值的资源。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力，并为未来的研究设置了标准。

May, 2023

流媒体视频模型

提出了一种名为 “Streaming Vision Transformer” 的流式视频架构，利用具有内存功能的时间感知空间编码器产生帧级特征，供基于帧的视频任务使用；然后将帧级特征输入到与任务相关的时间解码器中，获得用于序列化任务的时空特征，该模型在行动识别任务中具有最先进的准确度，并在基于帧的多目标跟踪任务中具有竞争优势。

Mar, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

迈向长型视频理解

本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构，针对大规模数据集进行长型视频理解任务的研究，并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果，同时在 AVA 数据集上也优于可比较的最新研究成果。

Jun, 2021

迈向视觉语言跟踪的统一标记学习

该研究提出了一种简单、灵活且有效的视觉 - 语言（VL）跟踪管道，称为 MMTrack，它将 VL 跟踪视为一个标记生成任务，并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数，该设计范式极大地降低了 VL 跟踪建模的复杂性，并允许跟踪器使用简单的交叉熵损失作为统一的优化目标。在 TNL2K、LaSOT、LaSOT_ext 和 OTB99-Lang 基准测试上的广泛实验表明，与其他最先进的方法相比，我们的方法取得了令人满意的结果。

Aug, 2023

Chat-UniVi：统一视觉表示赋予大型语言模型图像和视频理解能力

Chat-UniVi 是一个统一的视觉 - 语言模型，能够理解和参与涉及图像和视频的对话，并通过一种统一的视觉表示来实现。该模型利用一组动态视觉令牌来统一表示图像和视频，同时具备捕捉图像的空间细节和视频的全面时间关系所需的能力。Chat-UniVi 在包含图像和视频的混合数据集上进行训练，无需任何修改即可直接应用于涉及两种介质的任务，并在广泛的实验结果中一直优于专门设计用于图像或视频的现有方法。

Nov, 2023

InternVideo2：面向多模态视频理解的视频基础模型的扩展

我们介绍 InternVideo2，这是一种新的视频基础模型（ViFM），在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式，统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督学习框架。不同的训练阶段通过不同的预训练任务引导我们的模型捕捉不同层次的结构和语义信息。在数据层面上，我们通过对视频进行语义分割和生成视频 - 音频 - 语音字幕来优先考虑时空一致性，从而提高了视频和文本之间的对齐性。我们为 InternVideo2 扩展了数据和模型规模。通过广泛的实验证明了我们的设计，并展示了在 60 多个视频和音频任务上的最先进性能。值得注意的是，我们的模型在各种与视频有关的字幕、对话和长期视频理解基准上优于其他模型，凸显了它在推理和理解长时间上下文方面的能力。代码和模型可在此 URL 获取。

Mar, 2024

视频广告理解的多模态框架

该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统，包括场景分割和多模态标记两个任务，通过视觉和文本特征相结合的方法，在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。

Aug, 2021

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和 GPU 内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024