发现视频问答的时空原理

Jul, 2023

Discovering Spatio-Temporal Rationales for Video Question Answering

Yicong Li, Junbin Xiao, Chun Feng, Xiang Wang, Tat-Seng Chua

TL;DR本论文旨在解决复杂的视频问答问题，针对长时间包含多个对象和事件的视频，通过提出时空合理化和TranSTR等方法，成功地在多个数据集上取得了新的最先进结果。

Abstract

This paper strives to solve complex video question answering (VideoQA) which features long video containing multiple objects and events at different time. To tackle the challenge, we highlight the importance of identifying question-critical temporal moments and spatial objects from the

发现论文，激发创造

MarioQA：通过观看游戏玩法视频来回答问题

本文提供了一个分析影片问答模型的框架，并利用可自定义的合成数据集对其进行分析，以了解对视频事件的时间依赖性进行推理的能力，验证了数据集中包含不同复杂度事件的重要性，以学习有效模型并改善整体性能。

Dec, 2016

TGIF-QA：关于视觉问答中时空推理的研究

本文提出了三个特别设计用于视频VQA的新任务，推出一个新的大型数据集TGIF-QA，并提出了一种利用空间和时间关注的双LSTM方法，证明其在经验评估中的有效性。

Apr, 2017

TVQA:本地化、组合式视频问答

本文提出TVQA，一个基于6个流行电视节目的大规模视频问答数据集，共计包含152,545对QA对，分布在21,793个片段中，共涵盖了460小时的视频。该数据集中的问题具有组合性质，需要系统联合定位剪辑中的相关片段，理解基于字幕的对话，并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。

Sep, 2018

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加bounding boxes数据集，以此为基础构建了STAGE框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019

HySTER: 一个混合空间时间事件推理器

本文介绍HySTER：一种可以理解视频中的物理事件的混合时空事件推理器，将深度学习和符号人工智能的推理能力和说明性相结合应用于VideoQA问题，采用一种基于时间、因果和物理规则的方法，并在CLEVRER数据集上展示出了最先进的问题回答准确性结果。

Jan, 2021

视频问答的分层面向对象时空推理

通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型（HOSTR），能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。

Jun, 2021

视频问答的 2.5+1 维时空场景图

本文提出了一种基于(2.5+1)D 场景图表示的视频问答方法，将视频帧转成伪-3D视图并保持语义，然后基于此表示应用 transformer 模型进行推理，实验证明，该方法在视频问答任务中具有优异的性能。

Feb, 2022

关键词感知的视频问答的相对时空图网络

该论文提出了一种关键词感知的相对时空图网络（KRST）用于视频问答，通过在问题编码过程中使用注意机制让问题特征对关键词敏感，指导视频图构建，并整合了相对关系建模以更好地捕捉物体节点之间的时空动态，实验证明KRST方法在多个现有方法上具有优势。

Jul, 2023

开放式词汇视频问答：评估视频问答模型的通用性的新基准

提出了Open-vocabulary Video Question Answering（OVQA）基准测试，旨在通过考虑罕见和未知的答案来衡量VideoQA模型的泛化能力，并引入一种改进了模型泛化能力的新型GNN-based soft verbalizer。

Aug, 2023

神经符号化视频问答：为现实世界视频问答学习组合的时空推理

该研究提出了一种针对实际视频问答任务的神经符号框架（NS-VideoQA），通过引入场景解析网络（SPN）和符号推理机（SRM），实现了对复合时空问题的高效推理和回答能力的提升。

Apr, 2024