本文提供了一个分析影片问答模型的框架,并利用可自定义的合成数据集对其进行分析,以了解对视频事件的时间依赖性进行推理的能力,验证了数据集中包含不同复杂度事件的重要性,以学习有效模型并改善整体性能。
Dec, 2016
本文提出了三个特别设计用于视频VQA的新任务,推出一个新的大型数据集TGIF-QA,并提出了一种利用空间和时间关注的双LSTM方法,证明其在经验评估中的有效性。
Apr, 2017
该研究针对视频问答这一任务,提出增加bounding boxes数据集,以此为基础构建了STAGE框架,在空间和时间域上对视频进行处理,以便回答关于视频的自然语言问题,并展示了实验结果和可视化。
Apr, 2019
本文提出了一种基于图卷积和位置感知的方法,通过将视频内容表示为具有位置信息的图形式来更好地回答视频问答问题。该方法结合了对象物体交互的位置和关系,提取动作的类别和时间位置。在TGIF-QA、Youtube2Text-QA和MSVD-QA数据集上得出的实验表明该方法优于现有的方法。
Aug, 2020
通过提出一种基于对象导向推理的动态交互视频场景中的视觉物体关系、行为和事件的深度神经网络模型(HOSTR),能够在多个视频问题回答基准数据集中取得最新的最高成就并显示出其可靠性、可解释性和高效性。
Jun, 2021
本文提出了一种基于(2.5+1)D 场景图表示的视频问答方法,将视频帧转成伪-3D视图并保持语义,然后基于此表示应用 transformer 模型进行推理,实验证明,该方法在视频问答任务中具有优异的性能。
Feb, 2022
该研究论文提出了一种名为VGT的视频图形转换器模型,旨在解决视频问答任务中动态关系推理方面的挑战,其独特性在于利用动态图形变换器模块对视频进行编码,并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察,证明了VGT的有效性和优越性,并揭示了其可用于更数据有效的预训练。
Jul, 2022
本论文旨在解决复杂的视频问答问题,针对长时间包含多个对象和事件的视频,通过提出时空合理化和TranSTR等方法,成功地在多个数据集上取得了新的最先进结果。
Jul, 2023
通过建立一个新的名为STComplEx的STKG嵌入方法,从问题中提取时空信息,我们的STCQA模型可以更好地理解问题,并从STKG中检索准确答案。通过广泛的实验,我们展示了我们数据集的质量和我们STKGQA方法的有效性。
Feb, 2024
该研究提出了一种针对实际视频问答任务的神经符号框架(NS-VideoQA),通过引入场景解析网络(SPN)和符号推理机(SRM),实现了对复合时空问题的高效推理和回答能力的提升。
Apr, 2024