OED：实现一阶段端到端的动态场景图生成

CVPRMay, 2024

OED：实现一阶段端到端的动态场景图生成

OED: Towards One-stage End-to-End Dynamic Scene Graph Generation

Guan Wang, Zhimin Li, Qingchao Chen, Yang Liu

TL;DRDSGG 研究主要关注于在视频的时空域中识别视觉关系。本文提出了一种称为 OED 的一阶端到端框架，它将任务重新定义为集合预测问题，并利用成对特征来表示场景图中的每个主客体对。同时，为了捕获时序依赖关系，引入了一种称为 PRM 的渐进细化模块，它能够在没有额外跟踪器或手工制作的轨迹的约束下聚合时序上下文，并实现网络的端到端优化。通过在 Action Genome 基准上进行大量实验，证明了我们设计的有效性。

Abstract

dynamic scene graph generation (dsgg) focuses on identifying visual relationships within the spatial-temporal domain of videos. Conventional approaches often employ multi-stage pipelines, which typically consist

dynamic scene graph generation dsgg one-stage end-to-end framework progressively refined module action genome benchmark

发现论文，激发创造

DSGG：稠密关系变换器用于端到端场景图生成

本文介绍了一种新的基于 Transformer 的方法，称为 DSGG，将场景图检测视为基于一组独特的图感知查询的直接图预测问题，并采用放松子图匹配的方式获取图节点及其关系的紧凑表示，以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明，该模型在场景图生成任务上取得了最先进的结果，在 mR@50 和 mR@100 方面分别取得了 3.5％和 6.7％的显著改进，在全景场景图生成任务上甚至取得了 8.5％和 10.3％的更大改进。

Mar, 2024

可微分场景图

该论文介绍了 Differentiable Scene Graphs (DSGs)—— 一种可微的、可端到端优化的图像表示方法，该方法通过利用有标签的下游任务进行监督，对场景图中的实体和关系进行密集编码，从而在视觉推理任务中取得了新的最优表现，特别在指代关系标识方面表现良好。

Feb, 2019

NODIS: 神经常微分场景理解

本文提出了一种使用神经 ODE 求解的架构来进行语义图像理解，达到了当前三个基准任务的最佳结果，并构建了一个提供图像抽象语义解释的场景图。

Jan, 2020

基于边双场景图和消息传递神经网络的语义场景图生成

通过引入边缘双场景图生成（EdgeSGG）和双消息传递神经网络（DualMPNN），本论文提出了一种建模多对象关系的新方法，可以准确地预测对象之间的详细关系，并在各个场景图生成子任务中实现了显著的性能提升，同时有效缓解了长尾分布问题。

Nov, 2023

走向场景图预测

分析了视频中的时空场景图，提出了 SceneSayer 方法，通过对观察到的视频帧进行推理，模拟对象之间关系的演化，并使用神经常微分方程和神经随机微分方程来预测对象之间的未来关系。在 Action Genome 数据集上进行了大量实验验证了该方法的效果。

Mar, 2024

扩展场景图边界：通过视觉 - 概念对齐和保持实现全开词汇场景图生成

提出了一种名为 OvSGTR 的统一框架，用于从整体视角实现完全开放词汇的场景图生成，并通过知识蒸馏保留视觉 - 概念对齐，综合实验结果在 Visual Genome 基准上证明了该框架的有效性和优越性。

Nov, 2023

自适应视觉场景理解：增量场景图生成

通过引入包含三个学习场景和八个评估指标的综合连续场景图生成（CSEGG）数据集，研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况，以及连续目标检测如何增强对未知对象上已知关系的泛化性能。

Oct, 2023

STDG：一种基于深度引导的一阶段场景图生成的半师生训练范式

STDG 是一种前卫的深度引导一阶场景图生成方法，通过三个自定义模块实现，能够全面利用深度信息并显著提高一阶场景图生成基线的性能。

Sep, 2023

动态场景图生成的本地 - 全局信息交互解偏差

提出了一种基于多任务学习的新型动态场景图生成模型，该模型结合了局部交互信息和全局人物行为交互信息，通过对象和帧特征之间的交互使模型更全面地理解单幅图像的视觉环境，并使用长时人体动作监督模型生成符合全局约束条件且避免不能学习尾谓词的多个场景图。实验证明了该框架的功效，不仅改善了动态场景图生成，还缓解了长尾问题。

Aug, 2023

时空事件图像用于动态场景理解

该论文介绍了关于动态场景理解的研究，主要涉及自动驾驶、道路事件检测、视频活动检测、持续学习等内容。

Dec, 2023