视频问答的分层面向对象时空推理

Jun, 2021

视频问答的分层面向对象时空推理

Hierarchical Object-oriented Spatio-Temporal Reasoning for Video Question Answering

Long Hoang Dang, Thao Minh Le, Vuong Le, Truyen Tran

TL;DR通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型（HOSTR），能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。

Abstract

Video Question Answering (video qa) is a powerful testbed to develop new ai capabilities. This task necessitates learning to reason about objects, relations, and events across visual and linguistic domains in spa

发现论文，激发创造

TGIF-QA：关于视觉问答中时空推理的研究

本文提出了三个特别设计用于视频VQA的新任务，推出一个新的大型数据集TGIF-QA，并提出了一种利用空间和时间关注的双LSTM方法，证明其在经验评估中的有效性。

Apr, 2017

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加bounding boxes数据集，以此为基础构建了STAGE框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019

视频问答的快慢神经推理

本研究提出了一种基于双过程神经架构的视频问答系统，该系统能够理解语言、表示视频内容，并通过多步推理过程得出答案

Jul, 2019

HySTER: 一个混合空间时间事件推理器

本文介绍HySTER：一种可以理解视频中的物理事件的混合时空事件推理器，将深度学习和符号人工智能的推理能力和说明性相结合应用于VideoQA问题，采用一种基于时间、因果和物理规则的方法，并在CLEVRER数据集上展示出了最先进的问题回答准确性结果。

Jan, 2021

AGQA：组合式时空推理的基准测试

本论文针对计算机视觉模型做了一个新的基准，名为Action Genome Question Answering (AGQA)，并提供了3.9M个问题答案对的平衡子集，以最小化偏倚。AGQA引入了多个训练/测试集来测试各种推理能力，包括新颖组合的泛化，间接引用以及更多的组合步骤。这项研究发现，最好的模型仅能比利用语言偏见的非视觉基准优秀一些；并且现有的模型都无法推广到训练中未见过的新颖组合。

Mar, 2021

利用视频作为条件图层级的多粒度问答

本文提出了一种将视频建模为条件分层图层次结构的方法，通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念，该方法超越了先前方法的表现，且对于不同类型的问题也具有更好的泛化能力。

Dec, 2021

视频问答的 2.5+1 维时空场景图

本文提出了一种基于(2.5+1)D 场景图表示的视频问答方法，将视频帧转成伪-3D视图并保持语义，然后基于此表示应用 transformer 模型进行推理，实验证明，该方法在视频问答任务中具有优异的性能。

Feb, 2022

发现视频问答的时空原理

本论文旨在解决复杂的视频问答问题，针对长时间包含多个对象和事件的视频，通过提出时空合理化和TranSTR等方法，成功地在多个数据集上取得了新的最先进结果。

Jul, 2023

关键词感知的视频问答的相对时空图网络

该论文提出了一种关键词感知的相对时空图网络（KRST）用于视频问答，通过在问题编码过程中使用注意机制让问题特征对关键词敏感，指导视频图构建，并整合了相对关系建模以更好地捕捉物体节点之间的时空动态，实验证明KRST方法在多个现有方法上具有优势。

Jul, 2023

神经符号化视频问答：为现实世界视频问答学习组合的时空推理

该研究提出了一种针对实际视频问答任务的神经符号框架（NS-VideoQA），通过引入场景解析网络（SPN）和符号推理机（SRM），实现了对复合时空问题的高效推理和回答能力的提升。

Apr, 2024