利用视频作为条件图层级的多粒度问答
通过介绍一种条件关系网络的方法来构建可复用神经元,用于视频中的表示和推理,并在Well-known的数据集上取得最新的状态技术,证明CRN对于视频问答等复杂域的表示和推理是成功的。
Feb, 2020
本文提出了一种基于图卷积和位置感知的方法,通过将视频内容表示为具有位置信息的图形式来更好地回答视频问答问题。该方法结合了对象物体交互的位置和关系,提取动作的类别和时间位置。在TGIF-QA、Youtube2Text-QA和MSVD-QA数据集上得出的实验表明该方法优于现有的方法。
Aug, 2020
该论文主要介绍了一种基于条件计算结构的一般性可重用神经元CRN和视频QA中的分层条件关系网络HCRN,旨在解决视频问题答案推理的问题。并在广泛的真实世界数据集上展示了其优越性能。
Oct, 2020
本文提出了一种名为 Bridge to Answer 的新方法,通过利用异构交叉模式图的充分图交互来推断有关给定视频的问题的正确答案,通过学习问题调节的视觉图,对视觉节点使用问题 - 视觉交互来包含视觉和语言线索,并通过将问题图作为中间桥梁来将两个互补的视觉信息放在一起,使可靠的信息传递,以生成适当的答案,从而证明了该方法在视频问答方面提供了有效的上乘表现。
Apr, 2021
本文提出了一种基于(2.5+1)D 场景图表示的视频问答方法,将视频帧转成伪-3D视图并保持语义,然后基于此表示应用 transformer 模型进行推理,实验证明,该方法在视频问答任务中具有优异的性能。
Feb, 2022
该研究论文提出了一种名为VGT的视频图形转换器模型,旨在解决视频问答任务中动态关系推理方面的挑战,其独特性在于利用动态图形变换器模块对视频进行编码,并利用分离的视频和文本变换器来执行问答任务。通过充分的分析和启发性的观察,证明了VGT的有效性和优越性,并揭示了其可用于更数据有效的预训练。
Jul, 2022
本研究介绍了 ANetQA,这是一个支持对挑战性非剪辑视频进行精细组成式推理的大规模基准测试。与现有的基准测试相比,它通过自动从预注释场景图中生成 QA 对,使得可以对多样化的推理能力进行粒度控制。与AGQA相比,ANetQA的QA对具有更细粒度的语义特征,因此可以更好地帮助评估VideoQA模型。
May, 2023
该论文提出了一种关键词感知的相对时空图网络(KRST)用于视频问答,通过在问题编码过程中使用注意机制让问题特征对关键词敏感,指导视频图构建,并整合了相对关系建模以更好地捕捉物体节点之间的时空动态,实验证明KRST方法在多个现有方法上具有优势。
Jul, 2023
通过受到人类认知和学习模式的启发,我们提出了一种视频问题回答(VideoQA)的框架VideoDistill,该框架在视觉感知和答案生成过程中具有语言感知(即以目标驱动为特征)的行为,通过思考、观察和回答的方式生成与问题相关的显著图像。
Apr, 2024