VideoAgent: 基于大型语言模型的长视频理解

Mar, 2024

VideoAgent: 基于大型语言模型的长视频理解

VideoAgent: Long-form Video Understanding with Large Language Model as Agent

Xiaohan Wang, Yuhui Zhang, Orr Zohar, Serena Yeung-Levy

TL;DR利用一个新型的基于代理的系统，以长篇视频理解为挑战，通过交互性推理和规划来处理长时间的多模式序列，同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题，视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中，VideoAgent 的零样本准确率分别达到了 54.1% 和 71.3%，仅使用平均 8.4 和 8.2 帧。这些结果证明了我们方法在效果和效率上优于当前技术水平，突显了基于代理的方法在提升长篇视频理解方面的潜力。

Abstract

long-form video understanding represents a significant challenge within computer vision, demanding a model capable of reasoning over long multi-modal sequences. Motivated by the human cognitive process for long-form video understanding, we emphasize →

long-form video understanding interactive reasoning planning agent-based system vision-language foundation models

发现论文，激发创造

VideoAgent：一个增强记忆的多模态视频理解代理

利用多模态代理、统一记忆机制和零样本工具使用能力来解决视频理解中的长期时间关系问题，在多个长期视觉理解基准测试中表现出色，相比基准模型，NExT-QA 平均提升 6.6%，EgoSchema 平均提升 26.0%，缩小了开源模型与私有对应模型之间的差距。

Mar, 2024

迈向长型视频理解

本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构，针对大规模数据集进行长型视频理解任务的研究，并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果，同时在 AVA 数据集上也优于可比较的最新研究成果。

Jun, 2021

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

长视频理解语言库

本文介绍了一种语言仓库 (LangRepo)，用于长文本视频理解，通过维护简明有结构信息作为可解释的（即全文本）表示。该仓库基于多尺度视频块进行迭代更新，并引入了专注于修剪文本中的冗余信息和在各个时间尺度提取信息的写入和读取操作。该提出的框架在包括 EgoSchema、NExT-QA、IntentQA 和 NExT-GQA 等无监督视觉问答基准测试上进行评估，表现出最新最好的性能。我们的代码可在此链接获得：https:// 此链接。

Mar, 2024

通过剧本进行零样本长片视频理解

MM-Screenplayer 是一种先进的视频理解系统，具备多模态感知能力，可以将任何视频转换为文本剧本表示形式。与以往的故事叙述方法不同，我们将视频内容以场景为基本单位进行组织，而不仅仅是视觉连续的镜头。此外，我们开发了一种 “回溯” 策略来重新评估和验证不确定信息，特别针对断点模式。MM-Screenplayer 在 CVPR'2024 Long-form Video Understanding（LOVEU）Track 1 挑战中取得了最高分，全球准确率为 87.5％，断点准确率为 68.8％。

Jun, 2024

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Apr, 2024

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

使用大型语言模型的流式长视频理解

这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024