通过关联嵌入将像素转换为图形
研究使用视觉图像中的基于场景图谱的结构化表示,通过端到端模型建模图像中对象之间的关系,通过消息传递技术可以更好预测对象及其关系, 实验表明该模型显著优于以前的方法。
Jan, 2017
本文提出了一种新的方式将图形表示为多通道图像结构,并使用普通2D卷积神经网络来处理,该方法比现有图形核和图形CNN模型更准确且时间复杂度更小,适用于多种真实数据集。
Jul, 2017
本研究通过分析场景图中常规出现的子结构(即motifs),研究如何生成场景的结构化图形表达,并构建了一种能够捕捉场景图中高阶motifs的新架构——堆叠motif网络(Stacked Motif Networks)。通过在Visual Genome数据集上实验,结果表明我们的基准模型获得了3.6%的相对改进,并且该新架构又减少了相对7.1%的误差。
Nov, 2017
本研究提出使用生成对抗网络(GAN)生成细粒度场景图的方法,该方法首先生成单个关于具体区域场景的子图,并在不需要边界框标签的情况下,生成带属性信息的场景图。实验证明了该模型在数据集上的表现优于之前的工作,并能处理更大的词汇量。
Feb, 2018
提出了一种利用场景图生成图像的模型,其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局,并使用级联细化网络将布局转换为图像,训练对抗鉴别器来确保生成的图像具有逼真度。
Apr, 2018
本文提出了一种改进场景图生成的方法,通过显式建模整个对象实例的相互依赖关系,设计了一种简单而有效的关系嵌入模块,使我们的模型能够联合表示所有相关对象之间的连接,而不是只关注单个对象。在基本 Faster R-CNN 的基础上使用它,我们的模型在 Visual Genome 基准测试上取得了最先进的结果。通过引入全局上下文编码模块和几何布局编码模块,我们进一步提高了性能。在广泛的消融研究中,我们验证了我们的最终模型LinkNet在场景图生成方面的效果。
Nov, 2018
通过学习数据中的规范图形表征,我们提出了一种新模型,以改进复杂视觉场景的图像生成,并在Visual Genome、COCO和CLEVR三个基准测试上展示了模型的改进性能。
Dec, 2019
本篇论文提出了一种名为PSGNet的网络架构,该架构能够通过物理场景图像层次结构学习和提取场景信息,尤其在复杂真实世界图像上的场景分割任务上表现出色,并且能够从物理运动中学习到更为准确的场景估计。
Jun, 2020
通过学习场景图嵌入来直接优化其与图像的对齐以生成语义可操作的图像,该方法使用了遮蔽自编码丢失和对比丢失两种方法训练嵌入,并建立了潜在扩散模型来实现场景图像的生成。在Visual Genome和COCO-Stuff数据集上,该方法表现优异,超过了当前最好的方法。
Nov, 2022
利用预训练的文本到图像扩散模型和CLIP引导,我们的方法通过消除中间布局的预测,将图形知识转化为图像,从而生成与给定场景图一致的图像。实验证明,我们的方法在COCO-stuff和Visual Genome数据集的标准基准上优于现有方法。
Jan, 2024