编码和控制长篇视频问答的全球语义

May, 2024

编码和控制长篇视频问答的全球语义

Encoding and Controlling Global Semantics for Long-form Video Question Answering

Thong Thanh Nguyen, Zhiyuan Hu, Xiaobao Wu, Cong-Duy T Nguyen, See-Kiong Ng...

TL;DR通过引入状态空间层（SSL）到多模态转换器，有效整合视频的全局语义，以提高长格式视频问答（videoQA）的性能，并通过引入跨模态组合一致性（C^3）目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA，分别包含长达 17.5 分钟和 1.9 小时的视频，对长格式视频 QA 能力进行严格评估，实验结果表明我们的框架在这些新的和现有数据集上具有优势。

Abstract

Seeking answers effectively for long videos is essential to build video question answering (videoQA) systems. Previous methods adaptively select frames and regions from long videos to save computations. However, this fails to reason over the whole sequence of video, leading to sub-optimal performance. To address this problem, we introduce a →

video question answering state space layer multi-modal transformer long-form videoqa capacity benchmarks

发现论文，激发创造

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024

MoVQA：一项用于长篇电影理解的多功能问答基准

为了解决当前长篇视频理解数据集的局限性，研究引入了 MoVQA 数据集和基准评估，以评估多模态系统对多级时间长度的多样化认知能力，同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析，各种方法在处理视频和线索长度不断增加时性能显著下降，基准方法有所改进，但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA 提供新的视角，并激励针对长篇视频理解研究的启发性工作。

Dec, 2023

一种用于长视频问答的简单 LLM 框架

我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Dec, 2023

长话短说：针对长视频问答的摘要搜索方法

探究语言模型在长时间多媒体叙述中的零 - shot 推理能力，提出了一种用于叙述视频问答的框架 Long Story Short，通过首先将视频的叙述进行简化处理，然后寻找与问题相关的视频部分，并运用 CLIPCheck 来增强视觉匹配，实现了在长视频问答中优于最先进有监督模型的表现，突显了零 - shot 问题回答在长视频中的潜力。

Nov, 2023

迈向长型视频理解

本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构，针对大规模数据集进行长型视频理解任务的研究，并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果，同时在 AVA 数据集上也优于可比较的最新研究成果。

Jun, 2021

用于长视频问答的分层记忆

本文描述了我们在 LOVEU 挑战赛 @CVPR'24 中的冠军解决方案，利用 STAR Memory 这个层次性内存机制处理长视频，并使用 MovieChat-1K 训练集优化了预训练权重，在该挑战中取得了第一名。

Jun, 2024

长时间自视角视频中的基于场景的问答

本文旨在解决在长时间自我中心视频中的开放式问题回答，提出一种综合模型来减少错误传播、利用大语言模型进行高效可扩展的数据合成，并引入一个闭合式问题回答任务以管理答案的模糊性。实验证明了我们的方法的有效性，并在 QAEgo4D 和 Ego4D-NLQ 基准测试中达到了最先进的性能。

Dec, 2023

用于视频问答的结构化双流注意力网络

本文提出了一种结构化的双流注意力网络（STA）来解决视频问答（VQA），该网络可以识别视频中的长时空结构和文本特征，并将视觉与文本融合以提供准确的答案，在大规模视频 QA 数据集 TGIF-QA 上实验表明，STA 可将 Action，Trans，TrameQA 和 Count 任务的最佳效果提高 13.0％，13.5％，11.0％和 0.3％，在 Action，Trans，TrameQA 任务上也比最佳竞争对手提高 4.1％，4.7％和 5.1％。

Jun, 2022

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

基于分层卷积自注意力网络的开放式长视频问答

本论文提出了一种高效的分层卷积自注意编 - 解码神经网络，旨在解决长形视频问答中长程依赖建模和计算成本高的问题。该方法通过分层结构和多通道视频表示的注意力机制，在视频序列中捕捉基于问题的长程依赖关系，提高了回答的效率和准确性。

Jun, 2019