这篇研究论文提出了一种自底向上的场景理解方法,通过推断点云中物体之间的支撑关系,利用场景中平面对的空间拓扑信息,实现了原始物体分类和支撑关系推理,并构建了包含原始级别和物体级别的场景层级图,该算法在原始分类和支撑关系推理方面表现出色,而场景层级图则包含了丰富的几何和拓扑信息,并具有很好的可扩展性。
Apr, 2024
本文提出了一种基于场景图的三维场景理解方法,它将场景中的实体组织成图形式,运用基于 PointNet 和 Graph Convolutional Networks(GCN)的学习方法实现了场景图的回归,并且引入了一个新的数据集 3DSSG 来支持该方法的应用和评估。
Apr, 2020
本文为场景图生成的详细调查报告,主要讨论了场景图生成的各种技术、它们的有效性以及场景图在视觉关系理解和其他任务中的应用,同时分析了未来发展的方向。
May, 2020
为解决场景图构建的大量人工成本,提出了一种基于图像语义关系生成的简单有效的图像到文本模型(ISRG),该模型通过将场景图任务分解为两个子任务,即图像分割任务和限制性自回归文本生成任务,极大地降低了场景图的构建成本。在 OpenPSG 数据集上,该模型获得了 31 分,相应地优于强基线 ResNet-50 和 CLIP 16 点和 5 点。
Oct, 2022
本研究提出了一种新颖的基于注意力机制的关系网络,其包含两个关键模块和一个目标检测主干以实现场景图自动生成,并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。
Nov, 2018
使用结构化可视化表征 —— 场景图,通过可视上下文和语言因素进行关系编码,使用场景图卷积网络实现对对象属性和关系语义的联合推理来回答视觉问题,从而在 GQA 数据集上实现了 54.56%的最高准确率。
Dec, 2018
通过将语义模型与视觉统计模型相结合,并应用多种先进的链接预测方法,本研究证明链接预测方法可以提高对于视觉关系检测的结果,并在 Stanford Visual Relationship 数据集上取得了优于当今最先进方法的性能。
Sep, 2018
本文介绍了一种通过神经依赖解析器直接从文本描述中解析出场景图来实现端到端训练的方法,并在评估数据集上比以往方法高出 5%的 F - 分数相似度来生成了我们学习的神经依赖解析器产生的场景图。
Mar, 2018
本文探讨利用图卷积网络对场景图进行结构化表示并生成有用的语义图像嵌入的方法,通过相似性标签学习图像表示,提出一种新的排序损失函数并设计三元采样策略,实验表明此方法优于已知相似性损失,且能够很好地捕捉场景的全局信息。
Apr, 2021
通过建立空间语义场景图和使用图神经网络来探讨 Traffic participants 之间的关系对于预测自动驾驶中的加速度和减速度等相关参数具有重要作用。这种建模方式不仅可以提高预测结果,也可以通过包含先前场景的附加信息提高预测性能。
Nov, 2022