通过关联嵌入将像素转换为图形

Jun, 2017

Pixels to Graphs by Associative Embedding

Alejandro Newell, Jia Deng

TL;DR本文介绍了一种使用卷积神经网络和关联嵌入的图形定义生成方法，并在 Visual Genome 数据集上展示了最新的场景图生成性能。

Abstract

graphs are a useful abstraction of image content. Not only can graphs represent details about individual objects in a scene but they can capture the interactions between pairs of objects. We present a method for

发现论文，激发创造

迭代消息传递的场景图生成

研究使用视觉图像中的基于场景图谱的结构化表示，通过端到端模型建模图像中对象之间的关系，通过消息传递技术可以更好预测对象及其关系，实验表明该模型显著优于以前的方法。

Jan, 2017

使用二维卷积神经网络进行图形分类

本文提出了一种新的方式将图形表示为多通道图像结构，并使用普通2D卷积神经网络来处理，该方法比现有图形核和图形CNN模型更准确且时间复杂度更小，适用于多种真实数据集。

Jul, 2017

神经图形：全局背景下的场景图解析

本研究通过分析场景图中常规出现的子结构(即motifs)，研究如何生成场景的结构化图形表达，并构建了一种能够捕捉场景图中高阶motifs的新架构——堆叠motif网络(Stacked Motif Networks)。通过在Visual Genome数据集上实验，结果表明我们的基准模型获得了3.6％的相对改进，并且该新架构又减少了相对7.1％的误差。

Nov, 2017

利用对抗网络生成三元组以构建场景图

本研究提出使用生成对抗网络（GAN）生成细粒度场景图的方法，该方法首先生成单个关于具体区域场景的子图，并在不需要边界框标签的情况下，生成带属性信息的场景图。实验证明了该模型在数据集上的表现优于之前的工作，并能处理更大的词汇量。

Feb, 2018

从场景图生成图像

提出了一种利用场景图生成图像的模型，其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局，并使用级联细化网络将布局转换为图像，训练对抗鉴别器来确保生成的图像具有逼真度。

Apr, 2018

LinkNet：场景图的关系嵌入

本文提出了一种改进场景图生成的方法，通过显式建模整个对象实例的相互依赖关系，设计了一种简单而有效的关系嵌入模块，使我们的模型能够联合表示所有相关对象之间的连接，而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它，我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块，我们进一步提高了性能。在广泛的消融研究中，我们验证了我们的最终模型LinkNet在场景图生成方面的效果。

Nov, 2018

场景图像生成中规范表示的学习

通过学习数据中的规范图形表征，我们提出了一种新模型，以改进复杂视觉场景的图像生成，并在Visual Genome、COCO和CLEVR三个基准测试上展示了模型的改进性能。

Dec, 2019

从视觉场景中学习物理图形表示

本篇论文提出了一种名为PSGNet的网络架构，该架构能够通过物理场景图像层次结构学习和提取场景信息，尤其在复杂真实世界图像上的场景分割任务上表现出色，并且能够从物理运动中学习到更为准确的场景估计。

Jun, 2020

基于扩散的场景图像生成及带掩膜对比预训练

通过学习场景图嵌入来直接优化其与图像的对齐以生成语义可操作的图像，该方法使用了遮蔽自编码丢失和对比丢失两种方法训练嵌入，并建立了潜在扩散模型来实现场景图像的生成。在Visual Genome和COCO-Stuff数据集上，该方法表现优异，超过了当前最好的方法。

Nov, 2022

场景图像合成：将CLIP 引导与图结构条件整合于扩散模型中

利用预训练的文本到图像扩散模型和CLIP引导，我们的方法通过消除中间布局的预测，将图形知识转化为图像，从而生成与给定场景图一致的图像。实验证明，我们的方法在COCO-stuff和Visual Genome数据集的标准基准上优于现有方法。

Jan, 2024