图像语义关系生成

Oct, 2022

Image Semantic Relation Generation

Mingzhe Du

TL;DR为解决场景图构建的大量人工成本，提出了一种基于图像语义关系生成的简单有效的图像到文本模型（ISRG），该模型通过将场景图任务分解为两个子任务，即图像分割任务和限制性自回归文本生成任务，极大地降低了场景图的构建成本。在 OpenPSG 数据集上，该模型获得了 31 分，相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。

Abstract

scene graphs provide structured semantic understanding beyond images. For downstream tasks, such as image retrieval, visual question answering, visual relationship detection, and even autonomous vehicle technolog

scene graphs semantic understanding image segmentation visual models auto-regressive text generation

发现论文，激发创造

物体关系预测的逻辑偏差学习

通过因果推断进行对象关系预测的场景图生成方法，结合对象增强模块，在 Visual Gnome 150 数据集上取得了有效的实验结果，为决策模型的基础建模提供了巨大潜力。

Oct, 2023

无条件场景图生成

本文提出了一个用于无条件生成场景图的生成模型 SceneGraphGen，通过层级循环架构直接学习带标签和有向图的概率分布，生成的场景图多样且遵循真实场景的语义模式，同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。

Aug, 2021

全景场景图生成

介绍了一项新的问题任务，即基于全景分割生成全景场景图（PSG）；创建了一个高质量 PSG 数据集用于基准测试，并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线；探讨了未来的挑战和发展方向。

Jul, 2022

RSG-Net: 面向智能车辆在复杂环境中富语义关系预测

该研究提出了一种通过使用图卷积网络来预测自动驾驶车辆周围物体间的潜在语义关系的方法，并产生了称为 “路景图” 的图形结构结果，为风险检测、环境理解和决策制定等任务提供了基本方法。

Jul, 2022

从 3D 室内重建学习 3D 语义场景图

本文提出了一种基于场景图的三维场景理解方法，它将场景中的实体组织成图形式，运用基于 PointNet 和 Graph Convolutional Networks（GCN）的学习方法实现了场景图的回归，并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。

Apr, 2020

使用场景图进行视觉关系检测：一项调查

本文为场景图生成的详细调查报告，主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用，同时分析了未来发展的方向。

May, 2020

跨模态场景图匹配用于关系感知的图像 - 文本检索

本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系，从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取，取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。

Oct, 2019

关于支持关系和语义场景图

该论文提出了一种新颖的方法来推断场景中的支撑关系和构建语义场景图，以增强场景理解，并构建了一种描述场景内所有上下文关系的语义场景图。

Sep, 2016

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018

再探视觉定位

本文重新审视了 Johnson 等人于 2015 年提出的 “使用场景图像检索单元进行图像检索” 的图像 grounding 方法，发现该方法没有有效地使用其学习的物体 - 关系模型。同时，作者还研究了 IRSG 数据集和 VRD 数据集，并发现这些数据集存在偏差，容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题，研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。

Apr, 2019