该研究针对视频问答这一任务,提出增加bounding boxes数据集,以此为基础构建了STAGE框架,在空间和时间域上对视频进行处理,以便回答关于视频的自然语言问题,并展示了实验结果和可视化。
Apr, 2019
本文提出了一种视频问答模型,它有效地集成了多模态输入源并从中找到临时相关信息以回答问题,该模型包括多种设计方法,包括基于稠密图像标题的对象及其详细显著区域和动作识别,双重关注,跨集成和引入了带有人类重要性注释来更好地监督模型的两个损失函数的门控,这个模型在多个数据集上的表现优于现有的技术。
May, 2020
本文提出了一种名为 Bridge to Answer 的新方法,通过利用异构交叉模式图的充分图交互来推断有关给定视频的问题的正确答案,通过学习问题调节的视觉图,对视觉节点使用问题 - 视觉交互来包含视觉和语言线索,并通过将问题图作为中间桥梁来将两个互补的视觉信息放在一起,使可靠的信息传递,以生成适当的答案,从而证明了该方法在视频问答方面提供了有效的上乘表现。
Apr, 2021
本文提出了一种将视频建模为条件分层图层次结构的方法,通过组合不同层次的视觉元素来对齐语言查询中的多粒度语义概念,该方法超越了先前方法的表现,且对于不同类型的问题也具有更好的泛化能力。
Dec, 2021
本文提出了一种基于(2.5+1)D 场景图表示的视频问答方法,将视频帧转成伪-3D视图并保持语义,然后基于此表示应用 transformer 模型进行推理,实验证明,该方法在视频问答任务中具有优异的性能。
Feb, 2022
该研究论文提出了一种名为VGT的视频图形转换器模型,旨在解决视频问答任务中动态关系推理方面的挑战,其独特性在于利用动态图形变换器模块对视频进行编码,并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察,证明了VGT的有效性和优越性,并揭示了其可用于更数据有效的预训练。
Jul, 2022
本研究提出了一种基于情境超图的视频问答(SHG-VQA)架构,通过训练超图解码器来预测情境超图,并使用超图和问题嵌入的交叉注意力来预测正确答案,结果表明,学习底层情境超图可以显著提高系统对于视频问答任务的新型挑战的性能。
Apr, 2023
本论文旨在解决复杂的视频问答问题,针对长时间包含多个对象和事件的视频,通过提出时空合理化和TranSTR等方法,成功地在多个数据集上取得了新的最先进结果。
Jul, 2023
该论文提出了一种关键词感知的相对时空图网络(KRST)用于视频问答,通过在问题编码过程中使用注意机制让问题特征对关键词敏感,指导视频图构建,并整合了相对关系建模以更好地捕捉物体节点之间的时空动态,实验证明KRST方法在多个现有方法上具有优势。
本研究解决了现有视频问答系统在处理多个对象复杂场景时的不足。提出的对比语言事件图表示学习方法(CLanG)通过多层GNN集群模块来实现对事件表示的捕捉,显著提高了系统在处理因果和时间性问题上的表现,最高准确率提升达2.8%。
Sep, 2024