视频场景图生成的目标自适应上下文聚合

Aug, 2021

视频场景图生成的目标自适应上下文聚合

Target Adaptive Context Aggregation for Video Scene Graph Generation

Yao Teng, Limin Wang, Zhifeng Li, Gangshan Wu

TL;DR本文提出了一种新的“检测到跟踪”范例，使用 Hierarchical Relation Tree 和 Target-adaptive Context Aggregation 分块设计，利用异构的知识从而提高视频情境图生成的效率，并在 ImageNet-VidVRD 和 Action Genome 数据集上展示了良好的表现。

Abstract

This paper deals with a challenging task of video scene graph generation (VidSGG), which could serve as a structured video representation for high-level understanding tasks. We present a new {\em detect-to-track} paradigm for this task by decoupling the context modeling for relation pr

发现论文，激发创造

可分解网络：一种基于子图的场景图生成高效框架

本文提出了基于子图连接图的场景图生成方法，并采用自下而上的聚类方法将整个场景图分解为子图，并用更少的子图和对象特征替换场景图的众多关系表示，以显著降低中间阶段的计算。采用空间加权消息传递和空间敏感关系推理模块，维护空间信息以促进关系识别，该方法在视觉关系检测和视觉基因组数据集中均优于现有最先进的方法。

Jun, 2018

减少偏差的模型生成场景图

提出了一种基于自学知识的场景图生成模型训练方案，使用两个关系分类器减少标注偏差和稀疏标注造成的影响，并在多个标准场景图生成任务中观察到了显著的相对改进。

Aug, 2020

通过分类再划定：将视频场景图表现为时态二分图

本文提出了一个新的分类-然后接地框架，以避免现有的旧方案存在的三个问题，并且进一步将视频场景图重新定义为时态二分图的形式，提出了一种新的基于二分图的 SGG 模型 BIG，通过两个步骤分类和接地有效地处理了主体对象和断言的关系。

Dec, 2021

视频场景图生成的元空间时偏差校正

本研究提出了一种基于元学习的 Meta Video Scene Graph Generation (MVSGG) 框架，用于从支持集和若干查询集中构建训练数据并通过元训练和测试过程指导模型学习以针对空间时间条件偏差进行泛化，以提高视频场景图生成的泛化性能。

Jul, 2022

基于三元相关性引导的无偏视频场景图生成的标签补充

我们提出了一种名为Trico的方法，通过探索三种互补的时空相关性来补充缺失的谓词，从而实现了无偏谓词预测，并验证了Trico在VidVRD和VidOR等广泛使用的VidSGG数据集上的卓越性能，特别是在那些尾部谓词上。

Jul, 2023

构建视频语义角色标注的整体时空场景图

通过利用主体动态场景图表示了视频的细粒度空间语义和时间动态，建立了一个主题定位的视频语义角色标注框架，通过场景-事件映射机制优化整体结构表示，实现了VidSRL的三个子任务的联合解码，并在基准数据集上显著提升了性能。

Aug, 2023

视频场景图生成的时空知识嵌入Transformer

提出了一种将空间-时间知识嵌入到多头交叉注意力机制中的空间-时间知识嵌入变压器（STKET）模型，用于生成视频场景图并预测语义标签及其关系。经过广泛实验表明，STKET在不同设置下相对于当前算法的mR@50提升了8.1％，4.7％和2.1％。

Sep, 2023

HIG：视频理解中的层次交织图场景图生成方法

在本文中，我们从人类和物体之间的密集互动中推导出场景图表示，以探索视觉内容中的互动理解。为了实现这一目标，我们首先提出了一个含有广泛互动标记视频的新数据集，称为ASPIRe，并提出了一种名为Hierarchical Interlacement Graph（HIG）的新方法，通过分层结构中的统一层和图，深入研究场景变化的五个不同任务。通过在各种场景中进行的广泛实验，我们的方法表现出优越的性能。

Dec, 2023

DSGG：稠密关系变换器用于端到端场景图生成

本文介绍了一种新的基于Transformer的方法，称为DSGG，将场景图检测视为基于一组独特的图感知查询的直接图预测问题，并采用放松子图匹配的方式获取图节点及其关系的紧凑表示，以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明，该模型在场景图生成任务上取得了最先进的结果，在mR@50和mR@100方面分别取得了3.5％和6.7％的显著改进，在全景场景图生成任务上甚至取得了8.5％和10.3％的更大改进。

Mar, 2024

OED：实现一阶段端到端的动态场景图生成

DSGG研究主要关注于在视频的时空域中识别视觉关系。本文提出了一种称为OED的一阶端到端框架，它将任务重新定义为集合预测问题，并利用成对特征来表示场景图中的每个主客体对。同时，为了捕获时序依赖关系，引入了一种称为PRM的渐进细化模块，它能够在没有额外跟踪器或手工制作的轨迹的约束下聚合时序上下文，并实现网络的端到端优化。通过在Action Genome基准上进行大量实验，证明了我们设计的有效性。

May, 2024