基于上下文感知的实体定位和开放词汇 3D 场景图

Sep, 2023

基于上下文感知的实体定位和开放词汇 3D 场景图

Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs

Haonan Chang, Kowndinya Boyalakuntla, Shiyang Lu, Siwei Cai, Eric Jing...

TL;DR我们介绍了一种开放词汇的 3D 场景图（OVSG），它是一个形式化的框架，用于将各种实体，如物体实例、代理和区域，与自由文本查询进行关联。与传统的基于语义的物体定位方法不同，我们的系统支持上下文感知的实体定位，允许查询，如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比，OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明，我们提出的方法明显超越了以前基于语义的定位技术的性能。此外，我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。

Abstract

We present an open-vocabulary 3d scene graph (OVSG), a formal framework for grounding a variety of entities, such as object instances, agents, and regions, with free-form text-based queries. Unlike conventional semantic-based object localization approaches, our system facilitates conte

open-vocabulary 3d scene graph context-aware entity localization free-form text input semantic-based localization techniques real-world robot navigation

发现论文，激发创造

基于语言的机器人导航的分层开放词汇三维场景图

本研究致力于解决大规模环境下对象层次之外的抽象查询对于基于语言引导的机器人导航的难题，通过构建一个层次化的开放词汇三维场景图映射方法（HOV-SG），将先进的开放词汇分割级别地图与自由导航相结合，并在覆盖面积上实现了大小的减少，并且在物体、房间和楼层级别上产生了超过之前基线的开放词汇语义准确度。

Mar, 2024

OV-VG：开放词汇视觉定位基准

本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务，即开放式视觉定位与开放式短语定位，这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别，并增强视觉和语言信息之间的对齐。经过广泛的实验验证，我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。

Oct, 2023

扩展场景图边界：通过视觉 - 概念对齐和保持实现全开词汇场景图生成

提出了一种名为 OvSGTR 的统一框架，用于从整体视角实现完全开放词汇的场景图生成，并通过知识蒸馏保留视觉 - 概念对齐，综合实验结果在 Visual Genome 基准上证明了该框架的有效性和优越性。

Nov, 2023

通过场景图检索进行开放词汇目标检测

该研究提出了一种基于场景图的发现网络（SGDN），利用场景图线索进行开放词汇目标检测和场景图检测。实验证明该方法的有效性，并且能够解决以往方法无法处理的 OV 场景图生成任务。

Jul, 2023

ConceptGraphs: 开放词汇三维场景图用于感知和规划

为了使机器人能够执行各种任务，本研究提出了一种名为 ConceptGraphs 的基于图结构的 3D 场景表示方法，通过将 2D 基本模型的输出与多视图关联相结合，不需要收集大型 3D 数据集或微调模型即可实现对新的语义类进行泛化推理，并通过一些需要对空间和语义概念进行复杂推理的后续规划任务来证明这种表示方法的实用性。

Sep, 2023

Open3DSG: 从点云生成可查询对象和开放关系的开放式词汇 3D 场景图

使用开放的词汇表以及与场景图特征和查询对象类别联系的扎根 LLM，Open3DSG 作为第一个可以预测不仅是明确的开放词汇对象类别，还包括预定义标签集以外的开放集关系的三维点云方法，在零样本学习方式下有效预测任意对象类别及其描述空间、支持、语义和比较关系的复杂对象之间的关系。

Feb, 2024

零字参数开放词汇三维视觉定位的可视化编程

通过使用大型语言模型，我们提出了一种零样本开放词汇的三维视觉定位方法，使用独特的基于对话的方法和视觉程序模块，以及创新的语言 - 物体关联模块，在三维场景中实现了复杂推理，并扩展了现有三维物体检测器的应用范围，取得了显著的性能优势。

Nov, 2023

OpenScene: 利用开放式词汇的 3D 场景理解

使用 OpenScene 和 zero-shot 方法，借助于 CLIP 特征空间将 3D 场景中的点嵌入到文本和图像像素中，以达到不确定性的训练和开放词汇量的查询场景的目的。

Nov, 2022

OpenGraph: 大规模户外环境中的开放词汇层次化三维图谱表示

本文提出了 OpenGraph，一种适用于大规模户外环境的开放词汇层次图结构表示，该结构兼具图像和文字语义，并通过 2D 模型提取实例和标题，以增强文本推理能力，并通过将图像投影到 LiDAR 点云上实现了 3D 增量全景映射和特征嵌入，最终根据车道图连通性对环境进行分割构建了一个层次化图。验证结果显示，OpenGraph 能够在没有微调模型的情况下推广到新的语义类别，并取得最高的分割和查询精度。

Mar, 2024

使用场景图进行增量式目标定位

本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG)，通过使用场景图中的对象之间的关系，构造问答对话方式以消除人类命令的歧义和错误，该模型在现实场景中表现出可接受的性能，可以有效地通过回问式问答消除歧义的问题。

Jan, 2022