发现视频问答的时空原理
本文提供了一个分析影片问答模型的框架,并利用可自定义的合成数据集对其进行分析,以了解对视频事件的时间依赖性进行推理的能力,验证了数据集中包含不同复杂度事件的重要性,以学习有效模型并改善整体性能。
Dec, 2016
本文提出了三个特别设计用于视频VQA的新任务,推出一个新的大型数据集TGIF-QA,并提出了一种利用空间和时间关注的双LSTM方法,证明其在经验评估中的有效性。
Apr, 2017
本文提出TVQA,一个基于6个流行电视节目的大规模视频问答数据集,共计包含152,545对QA对,分布在21,793个片段中,共涵盖了460小时的视频。该数据集中的问题具有组合性质,需要系统联合定位剪辑中的相关片段,理解基于字幕的对话,并识别相关的视觉概念。作者提供了该数据集的分析以及几个基线模型和一个多流端到端可训练的神经网络框架。
Sep, 2018
该研究针对视频问答这一任务,提出增加bounding boxes数据集,以此为基础构建了STAGE框架,在空间和时间域上对视频进行处理,以便回答关于视频的自然语言问题,并展示了实验结果和可视化。
Apr, 2019
本文介绍HySTER:一种可以理解视频中的物理事件的混合时空事件推理器,将深度学习和符号人工智能的推理能力和说明性相结合应用于VideoQA问题,采用一种基于时间、因果和物理规则的方法,并在CLEVRER数据集上展示出了最先进的问题回答准确性结果。
Jan, 2021
通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型(HOSTR),能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。
Jun, 2021
本文提出了一种基于(2.5+1)D 场景图表示的视频问答方法,将视频帧转成伪-3D视图并保持语义,然后基于此表示应用 transformer 模型进行推理,实验证明,该方法在视频问答任务中具有优异的性能。
Feb, 2022
该论文提出了一种关键词感知的相对时空图网络(KRST)用于视频问答,通过在问题编码过程中使用注意机制让问题特征对关键词敏感,指导视频图构建,并整合了相对关系建模以更好地捕捉物体节点之间的时空动态,实验证明KRST方法在多个现有方法上具有优势。
Jul, 2023
提出了Open-vocabulary Video Question Answering(OVQA)基准测试,旨在通过考虑罕见和未知的答案来衡量VideoQA模型的泛化能力,并引入一种改进了模型泛化能力的新型GNN-based soft verbalizer。
Aug, 2023
该研究提出了一种针对实际视频问答任务的神经符号框架(NS-VideoQA),通过引入场景解析网络(SPN)和符号推理机(SRM),实现了对复合时空问题的高效推理和回答能力的提升。
Apr, 2024