用于长视频问答的分层记忆

Jun, 2024

Hierarchical Memory for Long Video QA

Yiqin Wang, Haoji Zhang, Yansong Tang, Yong Liu, Jiashi Feng...

TL;DR本文描述了我们在 LOVEU 挑战赛 @CVPR'24 中的冠军解决方案，利用 STAR Memory 这个层次性内存机制处理长视频，并使用 MovieChat-1K 训练集优化了预训练权重，在该挑战中取得了第一名。

Abstract

This paper describes our champion solution to the loveu challenge @ CVPR'24, Track 1 (long video vqa). Processing long sequences of visual tokens

loveu challenge long video vqa visual tokens star memory gpu memory

发现论文，激发创造

电影聊天 +: 针对长视频问答的问题感知稀疏记忆

基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器，通过特殊设计的记忆机制，无需额外的可训练时序模块，使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频，提出了 MovieChat，实现了长视频理解的最新性能，并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。

Apr, 2024

电影对话：从密集令牌到稀疏记忆的长视频理解

视频理解系统 MovieChat 利用大型语言模型和视频基础模型，通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。

Jul, 2023

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024

编码和控制长篇视频问答的全球语义

通过引入状态空间层（SSL）到多模态转换器，有效整合视频的全局语义，以提高长格式视频问答（videoQA）的性能，并通过引入跨模态组合一致性（C^3）目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA，分别包含长达 17.5 分钟和 1.9 小时的视频，对长格式视频 QA 能力进行严格评估，实验结果表明我们的框架在这些新的和现有数据集上具有优势。

May, 2024

Flash-VStream：基于内存的长视频实时理解

在这篇论文中，我们介绍了一种名为 Flash-VStream 的视频语言模型，它模拟了人类的记忆机制，能够实时处理极长的视频流并同时对用户查询进行响应。与现有模型相比，Flash-VStream 在推理延迟和 VRAM 消耗方面实现了显著的减少，并在在线视频流理解领域表现出了优异的性能。我们还提出了 VStream-QA，一个专门为在线视频流理解设计的新型问答基准，与现有方法在该基准上的比较结果显示了我们方法在这个具有挑战性场景中的优势。此外，我们的方法在离线场景中也取得了最先进的性能。

Jun, 2024

使用大型语言模型的流式长视频理解

这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024

幻觉减轻促进长期视频理解

本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法，通过使用 CLIP 分数指导带有问题的帧采样过程，并将问题信息注入到图像 Q-former 的查询中以获取更重要的视觉特征，最终在 MovieChat 数据集上取得了 84.2％和 62.9％的全局和断点模式准确率，超过了官方基线模型的 29.1％和 24.1％，在 CVPR LOVEU 2024 长期视频问答挑战中获得了第三名。

Jun, 2024