用于长视频问答的分层记忆
基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器,通过特殊设计的记忆机制,无需额外的可训练时序模块,使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频,提出了 MovieChat,实现了长视频理解的最新性能,并发布了包含 1K 个长视频、2K 个时序对齐标注和 14K 个手动注释验证方法有效性的 MovieChat-1K 基准。
Apr, 2024
视频理解系统 MovieChat 利用大型语言模型和视频基础模型,通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。
Jul, 2023
使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法,通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文,从而降低了视频令牌的数量,消除了噪音干扰,并提高了系统性能。
Dec, 2023
本文提出了一种新的端到端可训练的视频问答(VideoQA)框架,包含三个主要组成部分:新的异构内存、重设计的问题内存和新的多模式融合层,其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案,实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。
Apr, 2019
我们介绍了 LLoVi,这是一个用于长距离视频问答(LVQA)的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型(如 GPT-3.5,GPT-4),结合简单且出奇有效的 LVQA 框架,将短期和长期建模方面分解为两个阶段,从而实现对整个视频的理解和问题的回答。
Dec, 2023
长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余,我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。
Jun, 2024
通过引入状态空间层(SSL)到多模态转换器,有效整合视频的全局语义,以提高长格式视频问答(videoQA)的性能,并通过引入跨模态组合一致性(C^3)目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA,分别包含长达 17.5 分钟和 1.9 小时的视频,对长格式视频 QA 能力进行严格评估,实验结果表明我们的框架在这些新的和现有数据集上具有优势。
May, 2024
在这篇论文中,我们介绍了一种名为 Flash-VStream 的视频语言模型,它模拟了人类的记忆机制,能够实时处理极长的视频流并同时对用户查询进行响应。与现有模型相比,Flash-VStream 在推理延迟和 VRAM 消耗方面实现了显著的减少,并在在线视频流理解领域表现出了优异的性能。我们还提出了 VStream-QA,一个专门为在线视频流理解设计的新型问答基准,与现有方法在该基准上的比较结果显示了我们方法在这个具有挑战性场景中的优势。此外,我们的方法在离线场景中也取得了最先进的性能。
Jun, 2024
这篇论文介绍了 VideoStreaming,一种用于视频理解的先进视觉语言大型模型 (VLLM),它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。
May, 2024
本文提出了一种基于现有多模态大型语言模型的全面幻觉缓解方法,通过使用 CLIP 分数指导带有问题的帧采样过程,并将问题信息注入到图像 Q-former 的查询中以获取更重要的视觉特征,最终在 MovieChat 数据集上取得了 84.2%和 62.9%的全局和断点模式准确率,超过了官方基线模型的 29.1%和 24.1%,在 CVPR LOVEU 2024 长期视频问答挑战中获得了第三名。
Jun, 2024