基于分层卷积自注意力网络的开放式长视频问答

IJCAIJun, 2019

基于分层卷积自注意力网络的开放式长视频问答

Open-Ended Long-Form Video Question Answering via Hierarchical Convolutional Self-Attention Networks

Zhu Zhang, Zhou Zhao, Zhijie Lin, Jingkuan Song, Xiaofei He

TL;DR本论文提出了一种高效的分层卷积自注意编 - 解码神经网络，旨在解决长形视频问答中长程依赖建模和计算成本高的问题。该方法通过分层结构和多通道视频表示的注意力机制，在视频序列中捕捉基于问题的长程依赖关系，提高了回答的效率和准确性。

Abstract

open-ended video question answering aims to automatically generate the natural-language answer from referenced video contents according to the given question. Currently, most existing approaches focus on short-form video question answering with →

open-ended video question answering multi-modal recurrent encoder-decoder networks long-form video question answering hierarchical convolutional self-attention encoder-decoder network multi-scale attentive decoder

发现论文，激发创造

卷积分层注意网络用于查询焦点视频摘要

本文提出了一种基于查询的视频摘要生成方法，通过计算视频镜头与查询之间的相似度，采用包含两个部分的 Convolutional Hierarchical Attention Network 实现了对视觉信息的编码和查询相关性的计算，得到了查询相关的视频摘要。

Jan, 2020

通过属性增强的注意力网络学习进行视频问答

本文研究了如何利用带有特征增强的关注网络学习框架，旨在建立一个能够模拟视频内容的时间动态、实现统一视频表示学习的框架，同时在已构建的大型视频问答数据集上验证其性能，结果表明新模型在选择和开放问题任务上具有有效性。

Jul, 2017

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

异构内存增强的多模态注意力模型用于视频问答

本文提出了一种新的端到端可训练的视频问答（VideoQA）框架，包含三个主要组成部分：新的异构内存、重设计的问题内存和新的多模式融合层，其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案，实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。

Apr, 2019

利用视频描述学习视频问答

本文提出了一种可扩展的视频问答技术，利用自动生成的大量候选问题 - 答案对并使用自适应学习方法以处理其中存在的非理想数据，取得了优于基线模型的效果。

Nov, 2016

编码和控制长篇视频问答的全球语义

通过引入状态空间层（SSL）到多模态转换器，有效整合视频的全局语义，以提高长格式视频问答（videoQA）的性能，并通过引入跨模态组合一致性（C^3）目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA，分别包含长达 17.5 分钟和 1.9 小时的视频，对长格式视频 QA 能力进行严格评估，实验结果表明我们的框架在这些新的和现有数据集上具有优势。

May, 2024

用于视频问答的结构化双流注意力网络

本文提出了一种结构化的双流注意力网络（STA）来解决视频问答（VQA），该网络可以识别视频中的长时空结构和文本特征，并将视觉与文本融合以提供准确的答案，在大规模视频 QA 数据集 TGIF-QA 上实验表明，STA 可将 Action，Trans，TrameQA 和 Count 任务的最佳效果提高 13.0％，13.5％，11.0％和 0.3％，在 Action，Trans，TrameQA 任务上也比最佳竞争对手提高 4.1％，4.7％和 5.1％。

Jun, 2022

改进的视觉问答注意力机制

本文提出了一种改进的基于注意力机制的架构，其中包括一个对注意力结果和查询进行关系确定的 AoA 模块，并提出了多模态融合模块来组合视觉和文本信息，结果在 VQA-v2 基准数据集上达到了最先进的性能。

Nov, 2020

层次化条件关系网络用于多模态视频问答

该论文主要介绍了一种基于条件计算结构的一般性可重用神经元 CRN 和视频 QA 中的分层条件关系网络 HCRN，旨在解决视频问题答案推理的问题。并在广泛的真实世界数据集上展示了其优越性能。

Oct, 2020

用于长视频问答的分层记忆

本文描述了我们在 LOVEU 挑战赛 @CVPR'24 中的冠军解决方案，利用 STAR Memory 这个层次性内存机制处理长视频，并使用 MovieChat-1K 训练集优化了预训练权重，在该挑战中取得了第一名。

Jun, 2024