电影聊天 +: 针对长视频问答的问题感知稀疏记忆

Apr, 2024

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

MovieChat+: Question-aware Sparse Memory for Long Video Question Answering

Enxin Song, Wenhao Chai, Tian Ye, Jenq-Neng Hwang, Xi Li...

TL;DR基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Abstract

Recently, integrating video foundation models and large language models to build a video understanding system can overcome the limitations of specific pre-defined vision tasks. Yet, existing methods either employ

video understanding large language models long videos memory model moviechat

发现论文，激发创造

电影对话：从密集令牌到稀疏记忆的长视频理解

视频理解系统 MovieChat 利用大型语言模型和视频基础模型，通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。

Jul, 2023

TimeChat：长视频理解的时间敏感多模态大型语言模型

该研究提出了 TimeChat，一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现：1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器，和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频 Q-Former。此外，我们构建了一个调整指令的数据集，包括 6 个任务和总共 12.5 万个实例，以进一步提高 TimeChat 的指令遵循性能。在各种视频理解任务上的实验结果，如密集字幕生成、时间定位和重点检测，展示了 TimeChat 强大的零样本时态定位和推理能力。例如，在 YouCook2 上，它在 F1 评分上提升了 9.2，在 CIDEr 上提升了 2.8，在 QVHighlights 上的 HIT@1 提升了 5.8，在 Charades-STA 上的 R@1 (IoU=0.5) 提升了 27.5，与业界领先的视频大型语言模型相比，具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。

Dec, 2023

MA-LMM：用于长期视频理解的增强记忆大型多模态模型

通过在在线方式处理视频并将过去的视频信息存储在记忆库中，该研究提出了一种用于长期视频理解的高效有效模型，可以超越语言模型的上下文长度限制和 GPU 内存限制，并在多个数据集上实现了最先进的性能。

Apr, 2024

用于长视频问答的分层记忆

本文描述了我们在 LOVEU 挑战赛 @CVPR'24 中的冠军解决方案，利用 STAR Memory 这个层次性内存机制处理长视频，并使用 MovieChat-1K 训练集优化了预训练权重，在该挑战中取得了第一名。

Jun, 2024

使用大型语言模型的流式长视频理解

这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024

幻觉减轻促进长期视频理解

本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法，通过使用 CLIP 分数指导带有问题的帧采样过程，并将问题信息注入到图像 Q-former 的查询中以获取更重要的视觉特征，最终在 MovieChat 数据集上取得了 84.2％和 62.9％的全局和断点模式准确率，超过了官方基线模型的 29.1％和 24.1％，在 CVPR LOVEU 2024 长期视频问答挑战中获得了第三名。

Jun, 2024

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

VideoAgent：一个增强记忆的多模态视频理解代理

利用多模态代理、统一记忆机制和零样本工具使用能力来解决视频理解中的长期时间关系问题，在多个长期视觉理解基准测试中表现出色，相比基准模型，NExT-QA 平均提升 6.6%，EgoSchema 平均提升 26.0%，缩小了开源模型与私有对应模型之间的差距。

Mar, 2024

使用状态空间视频模型进行长视频片段分类

提出了一种结合自我关注和 S4 层优点的高效长范围视频模型，具有复杂的长范围时空依赖性，比传统的全自注意模型快 2.63 倍，占用 8 倍更少的 GPU 内存，并在视频分类等任务中取得了最先进的结果。

Apr, 2022

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024