全卷积场景图生成

CVPRMar, 2021

Fully Convolutional Scene Graph Generation

Hengyue Liu, Ning Yan, Masood S. Mortazavi, Bir Bhanu

TL;DR本文提出了一种完全卷积场景图生成（FCSGG）模型，它能够同时检测对象和关系，采用 bottom-up 的方式进行反向传播，成功在 Visual Genome 数据集上获得了高效、高精度的结果。

Abstract

This paper presents a fully convolutional scene graph generation (FCSGG) model that detects objects and relations simultaneously. Most of the scene graph generation frameworks use a pre-trained two-stage object detector, like Faster R-CNN, and build scene graphs using bounding box feat

fully convolutional scene graph generation object detection relation detection bottom-up approach visual genome dataset

发现论文，激发创造

图像场景图生成的图卷积神经网络

提出了一种新颖的场景图生成模型 ——Graph R-CNN，其在检测图像中的对象和它们之间的关系方面既有效又高效。该模型包含一种关系提议网络（RePN），能够有效地处理图像中潜在关系的二次数量。同时，我们提出了一种注意力图卷积网络（aGCN），有效地捕捉对象和关系之间的上下文信息。最后，我们引入了一种比现有指标更全面、更实际的评估方法。我们使用现有指标和我们提出的评估方法评估场景图生成，获得了最先进的性能。

Aug, 2018

自适应视觉场景理解：增量场景图生成

通过引入包含三个学习场景和八个评估指标的综合连续场景图生成（CSEGG）数据集，研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况，以及连续目标检测如何增强对未知对象上已知关系的泛化性能。

Oct, 2023

全景场景图生成

介绍了一项新的问题任务，即基于全景分割生成全景场景图（PSG）；创建了一个高质量 PSG 数据集用于基准测试，并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线；探讨了未来的挑战和发展方向。

Jul, 2022

基于分割的场景图生成

该论文提出了第一个像素级分割 - 基于场景图生成的框架，并通过辅助数据集的转移学习和多任务学习解决了目标场景图数据集中缺乏分割标注的问题，其中引入了基于语义相似性权重的线性组合来表达目标对象的分割掩模，并引入了新颖的高斯注意机制实现像素级关系预测，并且该框架支持端到端可训练。

Apr, 2021

DSGG：稠密关系变换器用于端到端场景图生成

本文介绍了一种新的基于 Transformer 的方法，称为 DSGG，将场景图检测视为基于一组独特的图感知查询的直接图预测问题，并采用放松子图匹配的方式获取图节点及其关系的紧凑表示，以及通过关系蒸馏策略来解决关系语义重叠问题。实验结果表明，该模型在场景图生成任务上取得了最先进的结果，在 mR@50 和 mR@100 方面分别取得了 3.5％和 6.7％的显著改进，在全景场景图生成任务上甚至取得了 8.5％和 10.3％的更大改进。

Mar, 2024

图像语义关系生成

为解决场景图构建的大量人工成本，提出了一种基于图像语义关系生成的简单有效的图像到文本模型（ISRG），该模型通过将场景图任务分解为两个子任务，即图像分割任务和限制性自回归文本生成任务，极大地降低了场景图的构建成本。在 OpenPSG 数据集上，该模型获得了 31 分，相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。

Oct, 2022

从场景图生成图像

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018

无条件场景图生成

本文提出了一个用于无条件生成场景图的生成模型 SceneGraphGen，通过层级循环架构直接学习带标签和有向图的概率分布，生成的场景图多样且遵循真实场景的语义模式，同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。

Aug, 2021

实时场景图生成

我们提出了一种使用 YOLOV8 作为目标检测骨干网络的实时场景图生成方法，该方法在任务中首次实现超过 48 FPS 的速度，且没有准确度损失，成功胜过任何其他轻量级方法。

May, 2024

扩展场景图边界：通过视觉 - 概念对齐和保持实现全开词汇场景图生成

提出了一种名为 OvSGTR 的统一框架，用于从整体视角实现完全开放词汇的场景图生成，并通过知识蒸馏保留视觉 - 概念对齐，综合实验结果在 Visual Genome 基准上证明了该框架的有效性和优越性。

Nov, 2023