基于分层卷积自注意力网络的开放式长视频问答
本文提出了一种基于查询的视频摘要生成方法,通过计算视频镜头与查询之间的相似度,采用包含两个部分的 Convolutional Hierarchical Attention Network 实现了对视觉信息的编码和查询相关性的计算,得到了查询相关的视频摘要。
Jan, 2020
本文研究了如何利用带有特征增强的关注网络学习框架,旨在建立一个能够模拟视频内容的时间动态、实现统一视频表示学习的框架,同时在已构建的大型视频问答数据集上验证其性能,结果表明新模型在选择和开放问题任务上具有有效性。
Jul, 2017
本文提出了一个基于循环神经网络的编码器 - 解码器方法,利用双通道排名损失来回答带有时间维度的选择题,同时探讨了 “填空题” 形式的方法来更细致地理解视频内容,并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明,我们的方法显著优于已有的基准模型。
Nov, 2015
本文提出了一种新的端到端可训练的视频问答(VideoQA)框架,包含三个主要组成部分:新的异构内存、重设计的问题内存和新的多模式融合层,其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案,实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。
Apr, 2019
通过引入状态空间层(SSL)到多模态转换器,有效整合视频的全局语义,以提高长格式视频问答(videoQA)的性能,并通过引入跨模态组合一致性(C^3)目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA,分别包含长达 17.5 分钟和 1.9 小时的视频,对长格式视频 QA 能力进行严格评估,实验结果表明我们的框架在这些新的和现有数据集上具有优势。
May, 2024
本文提出了一种结构化的双流注意力网络(STA)来解决视频问答(VQA),该网络可以识别视频中的长时空结构和文本特征,并将视觉与文本融合以提供准确的答案,在大规模视频 QA 数据集 TGIF-QA 上实验表明,STA 可将 Action,Trans,TrameQA 和 Count 任务的最佳效果提高 13.0%,13.5%,11.0%和 0.3%,在 Action,Trans,TrameQA 任务上也比最佳竞争对手提高 4.1%,4.7%和 5.1%。
Jun, 2022
本文提出了一种改进的基于注意力机制的架构,其中包括一个对注意力结果和查询进行关系确定的 AoA 模块,并提出了多模态融合模块来组合视觉和文本信息,结果在 VQA-v2 基准数据集上达到了最先进的性能。
Nov, 2020
该论文主要介绍了一种基于条件计算结构的一般性可重用神经元 CRN 和视频 QA 中的分层条件关系网络 HCRN,旨在解决视频问题答案推理的问题。并在广泛的真实世界数据集上展示了其优越性能。
Oct, 2020
本文描述了我们在 LOVEU 挑战赛 @CVPR'24 中的冠军解决方案,利用 STAR Memory 这个层次性内存机制处理长视频,并使用 MovieChat-1K 训练集优化了预训练权重,在该挑战中取得了第一名。
Jun, 2024