视频场景图生成的目标自适应上下文聚合
本文提出了基于子图连接图的场景图生成方法,并采用自下而上的聚类方法将整个场景图分解为子图,并用更少的子图和对象特征替换场景图的众多关系表示,以显著降低中间阶段的计算。采用空间加权消息传递和空间敏感关系推理模块,维护空间信息以促进关系识别,该方法在视觉关系检测和视觉基因组数据集中均优于现有最先进的方法。
Jun, 2018
本文提出了一个新的分类-然后接地框架,以避免现有的旧方案存在的三个问题,并且进一步将视频场景图重新定义为时态二分图的形式,提出了一种新的基于二分图的 SGG 模型 BIG,通过两个步骤分类和接地有效地处理了主体对象和断言的关系。
Dec, 2021
本研究提出了一种基于元学习的 Meta Video Scene Graph Generation (MVSGG) 框架,用于从支持集和若干查询集中构建训练数据并通过元训练和测试过程指导模型学习以针对空间时间条件偏差进行泛化,以提高视频场景图生成的泛化性能。
Jul, 2022
我们提出了一种名为Trico的方法,通过探索三种互补的时空相关性来补充缺失的谓词,从而实现了无偏谓词预测,并验证了Trico在VidVRD和VidOR等广泛使用的VidSGG数据集上的卓越性能,特别是在那些尾部谓词上。
Jul, 2023
通过利用主体动态场景图表示了视频的细粒度空间语义和时间动态,建立了一个主题定位的视频语义角色标注框架,通过场景-事件映射机制优化整体结构表示,实现了VidSRL的三个子任务的联合解码,并在基准数据集上显著提升了性能。
Aug, 2023
提出了一种将空间-时间知识嵌入到多头交叉注意力机制中的空间-时间知识嵌入变压器(STKET)模型,用于生成视频场景图并预测语义标签及其关系。经过广泛实验表明,STKET在不同设置下相对于当前算法的mR@50提升了8.1%,4.7%和2.1%。
Sep, 2023
在本文中,我们从人类和物体之间的密集互动中推导出场景图表示,以探索视觉内容中的互动理解。为了实现这一目标,我们首先提出了一个含有广泛互动标记视频的新数据集,称为ASPIRe,并提出了一种名为Hierarchical Interlacement Graph(HIG)的新方法,通过分层结构中的统一层和图,深入研究场景变化的五个不同任务。通过在各种场景中进行的广泛实验,我们的方法表现出优越的性能。
Dec, 2023
本文介绍了一种新的基于Transformer的方法,称为DSGG,将场景图检测视为基于一组独特的图感知查询的直接图预测问题,并采用放松子图匹配的方式获取图节点及其关系的紧凑表示,以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明,该模型在场景图生成任务上取得了最先进的结果,在mR@50和mR@100方面分别取得了3.5%和6.7%的显著改进,在全景场景图生成任务上甚至取得了8.5%和10.3%的更大改进。
Mar, 2024
DSGG研究主要关注于在视频的时空域中识别视觉关系。本文提出了一种称为OED的一阶端到端框架,它将任务重新定义为集合预测问题,并利用成对特征来表示场景图中的每个主客体对。同时,为了捕获时序依赖关系,引入了一种称为PRM的渐进细化模块,它能够在没有额外跟踪器或手工制作的轨迹的约束下聚合时序上下文,并实现网络的端到端优化。通过在Action Genome基准上进行大量实验,证明了我们设计的有效性。
May, 2024