扩展场景图边界：通过视觉 - 概念对齐和保持实现全开词汇场景图生成

Nov, 2023

扩展场景图边界：通过视觉 - 概念对齐和保持实现全开词汇场景图生成

Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention

PDF

Zuyao Chen, Jinlin Wu, Zhen Lei, Zhaoxiang Zhang, Changwen Chen

TL;DR提出了一种名为 OvSGTR 的统一框架，用于从整体视角实现完全开放词汇的场景图生成，并通过知识蒸馏保留视觉 - 概念对齐，综合实验结果在 Visual Genome 基准上证明了该框架的有效性和优越性。

Abstract

scene graph generation (SGG) offers a structured representation critical in many computer vision applications. Traditional SGG approaches, however, are limited by a closed-set assumption, restricting their ability to recognize only predefined object and relation categories. To overcome

scene graph generation open vocabulary detection relation-based sgg ovsgtr visual genome benchmark

发现论文，激发创造

从像素到图形：利用视觉语言模型进行开放式场景图生成

基于序列生成的新型开放词汇的场景图生成框架，通过使用视觉语言预训练模型和显式关系建模知识，实现了优质性能的开放词汇感知场景图生成和增强下游视觉语言任务的目的。

Apr, 2024

通过场景图检索进行开放词汇目标检测

该研究提出了一种基于场景图的发现网络（SGDN），利用场景图线索进行开放词汇目标检测和场景图检测。实验证明该方法的有效性，并且能够解决以往方法无法处理的 OV 场景图生成任务。

Jul, 2023

基于上下文感知的实体定位和开放词汇 3D 场景图

我们介绍了一种开放词汇的 3D 场景图（OVSG），它是一个形式化的框架，用于将各种实体，如物体实例、代理和区域，与自由文本查询进行关联。与传统的基于语义的物体定位方法不同，我们的系统支持上下文感知的实体定位，允许查询，如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比，OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明，我们提出的方法明显超越了以前基于语义的定位技术的性能。此外，我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。

Sep, 2023

基于语言的机器人导航的分层开放词汇三维场景图

本研究致力于解决大规模环境下对象层次之外的抽象查询对于基于语言引导的机器人导航的难题，通过构建一个层次化的开放词汇三维场景图映射方法（HOV-SG），将先进的开放词汇分割级别地图与自由导航相结合，并在覆盖面积上实现了大小的减少，并且在物体、房间和楼层级别上产生了超过之前基线的开放词汇语义准确度。

Mar, 2024

自适应视觉场景理解：增量场景图生成

通过引入包含三个学习场景和八个评估指标的综合连续场景图生成（CSEGG）数据集，研究深入探索现有的 SGG 方法在学习新对象时对先前对象实体和关系的保留情况，以及连续目标检测如何增强对未知对象上已知关系的泛化性能。

Oct, 2023

OV-VG：开放词汇视觉定位基准

本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务，即开放式视觉定位与开放式短语定位，这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别，并增强视觉和语言信息之间的对齐。经过广泛的实验验证，我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。

Oct, 2023

Open3DSG: 从点云生成可查询对象和开放关系的开放式词汇 3D 场景图

使用开放的词汇表以及与场景图特征和查询对象类别联系的扎根 LLM，Open3DSG 作为第一个可以预测不仅是明确的开放词汇对象类别，还包括预定义标签集以外的开放集关系的三维点云方法，在零样本学习方式下有效预测任意对象类别及其描述空间、支持、语义和比较关系的复杂对象之间的关系。

Feb, 2024

物体关系预测的逻辑偏差学习

通过因果推断进行对象关系预测的场景图生成方法，结合对象增强模块，在 Visual Gnome 150 数据集上取得了有效的实验结果，为决策模型的基础建模提供了巨大潜力。

Oct, 2023

减少偏差的模型生成场景图

提出了一种基于自学知识的场景图生成模型训练方案，使用两个关系分类器减少标注偏差和稀疏标注造成的影响，并在多个标准场景图生成任务中观察到了显著的相对改进。

Aug, 2020

基于边双场景图和消息传递神经网络的语义场景图生成

通过引入边缘双场景图生成（EdgeSGG）和双消息传递神经网络（DualMPNN），本论文提出了一种建模多对象关系的新方法，可以准确地预测对象之间的详细关系，并在各个场景图生成子任务中实现了显著的性能提升，同时有效缓解了长尾分布问题。

Nov, 2023