通过因果推断进行对象关系预测的场景图生成方法,结合对象增强模块,在 Visual Gnome 150 数据集上取得了有效的实验结果,为决策模型的基础建模提供了巨大潜力。
Oct, 2023
本文提出了一个用于无条件生成场景图的生成模型 SceneGraphGen,通过层级循环架构直接学习带标签和有向图的概率分布,生成的场景图多样且遵循真实场景的语义模式,同时还证明了生成的图在图像合成、异常检测和场景图完整性方面的应用。
Aug, 2021
介绍了一项新的问题任务,即基于全景分割生成全景场景图(PSG);创建了一个高质量 PSG 数据集用于基准测试,并介绍了四种传统方法的改进和两种基于 Transformer 的单阶段基线;探讨了未来的挑战和发展方向。
Jul, 2022
该研究提出了一种通过使用图卷积网络来预测自动驾驶车辆周围物体间的潜在语义关系的方法,并产生了称为 “路景图” 的图形结构结果,为风险检测、环境理解和决策制定等任务提供了基本方法。
本文提出了一种基于场景图的三维场景理解方法,它将场景中的实体组织成图形式,运用基于 PointNet 和 Graph Convolutional Networks(GCN)的学习方法实现了场景图的回归,并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。
Apr, 2020
本文为场景图生成的详细调查报告,主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用,同时分析了未来发展的方向。
May, 2020
本文研究了如何使用视觉场景图和文本场景图来联合表示图像和文本中的对象和关系,从而进行跨模态图像文本检索。本研究通过设计特定的场景图编码器实现了物体级和关系级跨模态特征的提取,取得了 Flickr30k 和 MSCOCO 数据集上最先进的结果。
Oct, 2019
该论文提出了一种新颖的方法来推断场景中的支撑关系和构建语义场景图,以增强场景理解,并构建了一种描述场景内所有上下文关系的语义场景图。
Sep, 2016
本研究提出了一种新颖的基于注意力机制的关系网络,其包含两个关键模块和一个目标检测主干以实现场景图自动生成,并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。
Nov, 2018
本文重新审视了 Johnson 等人于 2015 年提出的 “使用场景图像检索单元进行图像检索” 的图像 grounding 方法,发现该方法没有有效地使用其学习的物体 - 关系模型。同时,作者还研究了 IRSG 数据集和 VRD 数据集,并发现这些数据集存在偏差,容易让忽略关系的方法表现较好。作者通过对数据集进行子集处理等方法来解决这些问题,研究结果有助于更好地理解自然语言和视觉相结合的机器学习方法以及流行数据集测试的情况。
Apr, 2019