太多的帧,不全是有用的:长篇视频问答的高效策略
我们介绍了 LLoVi,这是一个用于长距离视频问答(LVQA)的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型(如 GPT-3.5,GPT-4),结合简单且出奇有效的 LVQA 框架,将短期和长期建模方面分解为两个阶段,从而实现对整个视频的理解和问题的回答。
Dec, 2023
使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法,通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文,从而降低了视频令牌的数量,消除了噪音干扰,并提高了系统性能。
Dec, 2023
通过引入状态空间层(SSL)到多模态转换器,有效整合视频的全局语义,以提高长格式视频问答(videoQA)的性能,并通过引入跨模态组合一致性(C^3)目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA,分别包含长达 17.5 分钟和 1.9 小时的视频,对长格式视频 QA 能力进行严格评估,实验结果表明我们的框架在这些新的和现有数据集上具有优势。
May, 2024
提出了一种轻量级自监督方法,将可学习的时空查询引入预训练模型以适应长视频,通过在 HowTo100M 数据集上进行训练,并在零样本长视频理解基准测试中表现出良好性能。
Apr, 2024
使用长视频理解任务中的 Large Language Models(LLMs)面临的挑战,本文提出了一种名为 LongVLM 的 VideoLLM 模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024
VideoTree 是一种用于视频理解的查询自适应和分层框架,利用大型语言模型的推理能力,通过动态提取与查询相关的信息并构建基于树的表示来提高推理准确性和效率。与现有方法相比,VideoTree 在 EgoSchema、NExT-QA 和 IntentQA 基准上分别实现了 7.0%、2.2% 和 2.7% 的准确度提升,并减少了 40% 的推理时间。
May, 2024
为了解决当前长篇视频理解数据集的局限性,研究引入了 MoVQA 数据集和基准评估,以评估多模态系统对多级时间长度的多样化认知能力,同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析,各种方法在处理视频和线索长度不断增加时性能显著下降,基准方法有所改进,但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角,并激励针对长篇视频理解研究的启发性工作。
Dec, 2023
提出了两种帧采样策略,即最主导帧(MDF)和最隐含帧(MIF),用于最大限度地保留对给定问题最重要的帧,验证实验结果表明这些策略能够提高图像 - 文本预训练模型的性能。
Jul, 2023
本文描述了我们在 LOVEU 挑战赛 @CVPR'24 中的冠军解决方案,利用 STAR Memory 这个层次性内存机制处理长视频,并使用 MovieChat-1K 训练集优化了预训练权重,在该挑战中取得了第一名。
Jun, 2024
通过基于文本 - 视频帧相似度的关键帧选择方法,KeyVideoLLM 能够高效、鲁棒、有效地管理 VideoLLM 数据,并在视频问答任务中显著改善模型性能,实验结果一直保持在最新技术的前沿。
Jul, 2024