NExT-QA：问答到解释时间动作的下一阶段

CVPRMay, 2021

NExT-QA：问答到解释时间动作的下一阶段

NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions

Junbin Xiao, Xindi Shang, Angela Yao, Tat-Seng Chua

TL;DR介绍了 NExT-QA，它是一个具有严谨设计的视频问答基准，旨在将视频理解从描述转化为解释时间动作；通过分析基线和现有的视频问答技术，发现表现最好的方法擅长浅层场景描述，但在因果和时间动作推理方面较弱。通过详细结果和启发式观察，希望 NExT-QA 能引导下一代视频问答研究超越表面的场景描述，实现对视频更深入的理解。

Abstract

We introduce next-qa, a rigorously designed video question answering (VideoQA) benchmark to advance video understanding from describing to explaining the temporal actions. Based on the dataset, we set up multi-ch

next-qa video question answering temporal action reasoning causal action reasoning common scene comprehension

发现论文，激发创造

揭示视频问答的时间背景

本文提出了一个基于循环神经网络的编码器 - 解码器方法，利用双通道排名损失来回答带有时间维度的选择题，同时探讨了 “填空题” 形式的方法来更细致地理解视频内容，并从 TACoS、MPII-MD、MEDTest 14 数据集中收集了超过 1,000 小时的 109,895 视频片段和 390,744 个对应的问题。大量实验表明，我们的方法显著优于已有的基准模型。

Nov, 2015

时序解析变换器用于动作质量评估

通过时间解析变压器将运动分解为时间部分级表示，采用对比回归与分级损失函数用于动作质量评估，提高了当前方法在多个 AQA 基准测试中的性能。

Jul, 2022

从特征和样本的视角重新思考视频问答中的多模态对齐

本论文提出一种基于多模态对齐、轨迹特征、层次化框架和训练数据扩充的视频问答方法，并在 NExT-QA 基准测试上表现出很高的性能。

Apr, 2022

ATM：视频问答的动作时间建模

通过动作时间建模（ATM），在视频问答（VideoQA）中引入了对因果 / 时间推理跨帧的问题，并通过重新思考光流的有效性、以行为为中心的对比学习和防止模型在微调阶段给出对洗牌视频的回答来实现了时序推理。实验证明，ATM 在多个 VideoQA 任务的准确性方面优于先前方法，并展示了更好的真实时间推理能力。

Sep, 2023

TGIF-QA：关于视觉问答中时空推理的研究

本文提出了三个特别设计用于视频 VQA 的新任务，推出一个新的大型数据集 TGIF-QA，并提出了一种利用空间和时间关注的双 LSTM 方法，证明其在经验评估中的有效性。

Apr, 2017

基于知识库的通用且可解释的时间问答基准

本文提出了一个基于 Wikidata 的时间问答数据集 TempQA-WD，以鼓励更多的研究在复杂推理任务方面的延伸和拓展。该数据集具有以下特点：（a）包含了中间 sparql 查询以方便基于语义解析的 KBQA 方法的评估，（b）可以推广到多个知识库，如 Freebase 和 Wikidata，（c）挑战性更强。

Jan, 2022

生成式视觉问答

本研究探讨了一种新的方法来创建先进的视觉问答（VQA）模型，可以在时间泛化上产生成功的结果。通过利用来自 VQAv2 和 MS-COCO 数据集的图像和标题，通过稳定扩散生成新图像。使用这个增强的数据集来测试七个基线和最新的 VQA 模型的组合。该研究的目的是调查几个成功的 VQA 模型的稳健性，评估它们对未来数据分布的性能。分析模型架构，识别改进时间分布偏移下的泛化能力的常见风格选择。这项研究突出了创建大规模未来偏移数据集的重要性，这些数据可以增强 VQA 模型的稳健性，使其未来的同行能够更好地适应时间分布的变化。

Jul, 2023

TVQA+: 视频问答的时空引用

该研究针对视频问答这一任务，提出增加 bounding boxes 数据集，以此为基础构建了 STAGE 框架，在空间和时间域上对视频进行处理，以便回答关于视频的自然语言问题，并展示了实验结果和可视化。

Apr, 2019

视频问答的快慢神经推理

本研究提出了一种基于双过程神经架构的视频问答系统，该系统能够理解语言、表示视频内容，并通过多步推理过程得出答案

Jul, 2019

时间查询网络用于细粒度视频理解

本文介绍了一种基于 Temporal Query Network 的时空查询机制，通过稠密采样与随机特征库更新方式实现了对细粒度行为的分类，最终在 FineGym 和 Diving48 的数据集上达到了当前最佳效果。

Apr, 2021