视频问答的 2.5+1 维时空场景图

Feb, 2022

(2.5+1)D Spatio-Temporal Scene Graphs for Video Question Answering

Anoop Cherian, Chiori Hori, Tim K. Marks, Jonathan Le Roux

TL;DR本文提出了一种基于(2.5+1)D 场景图表示的视频问答方法，将视频帧转成伪-3D视图并保持语义，然后基于此表示应用 transformer 模型进行推理，实验证明，该方法在视频问答任务中具有优异的性能。

Abstract

spatio-temporal scene-graph approaches to video-based reasoning tasks such as video question-answering (QA) typically construct such graphs for every video frame. Such approaches often ignore the fact that videos

发现论文，激发创造

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加bounding boxes数据集，以此为基础构建了STAGE框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019

利用场景图进行视觉问答的实证研究

本文提出了一种使用场景图和图网络进行视觉问答的方法，具有比当前最先进的视觉问答算法更清晰的架构，同时可以解释推理过程，展示了可解释的视觉问答的潜力。

Jul, 2019

视觉问答中的场景图推理

我们提出了一种基于场景图和强化学习的方法来解决视觉问答任务，实验结果表明该方法在GQA数据集上已达到接近人类水平的效果。

Jul, 2020

多模态洗牌变换器的视频对话动态图表示学习

本研究介绍了一种语义控制的多模态Shuffled Transformer推理框架，它包括一系列Transformer模块，用于解决AVSD任务中的多模态学习和推理，并提出了一种新型的动态场景图表示学习方法。实验结果表明，该模型在所有度量标准上均取得了最先进的性能。

Jul, 2020

视频问答的位置感知图卷积网络

本文提出了一种基于图卷积和位置感知的方法，通过将视频内容表示为具有位置信息的图形式来更好地回答视频问答问题。该方法结合了对象物体交互的位置和关系，提取动作的类别和时间位置。在TGIF-QA、Youtube2Text-QA和MSVD-QA数据集上得出的实验表明该方法优于现有的方法。

Aug, 2020

视频问答的分层面向对象时空推理

通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型（HOSTR），能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。

Jun, 2021

利用视频作为条件图层级的多粒度问答

本文提出了一种将视频建模为条件分层图层次结构的方法，通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念，该方法超越了先前方法的表现，且对于不同类型的问题也具有更好的泛化能力。

Dec, 2021

视频问题回答的视频图变换器

该研究论文提出了一种名为VGT的视频图形转换器模型，旨在解决视频问答任务中动态关系推理方面的挑战，其独特性在于利用动态图形变换器模块对视频进行编码，并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察，证明了VGT的有效性和优越性，并揭示了其可用于更数据有效的预训练。

Jul, 2022

发现视频问答的时空原理

本论文旨在解决复杂的视频问答问题，针对长时间包含多个对象和事件的视频，通过提出时空合理化和TranSTR等方法，成功地在多个数据集上取得了新的最先进结果。

Jul, 2023

关键词感知的视频问答的相对时空图网络

该论文提出了一种关键词感知的相对时空图网络（KRST）用于视频问答，通过在问题编码过程中使用注意机制让问题特征对关键词敏感，指导视频图构建，并整合了相对关系建模以更好地捕捉物体节点之间的时空动态，实验证明KRST方法在多个现有方法上具有优势。

Jul, 2023