开放式词汇可查询实景场景表示用于真实世界规划

Sep, 2022

开放式词汇可查询实景场景表示用于真实世界规划

Open-vocabulary Queryable Scene Representations for Real World Planning

Boyuan Chen, Fei Xia, Brian Ichter, Kanishka Rao, Keerthana Gopalakrishnan...

TL;DR本文提出了 NLMap 框架，通过先建立可查询的场景表征，为 LLM 规划器整合上下文信息，使其可以查询场景中的对象并产生上下文条件计划，从而使机器人能够实现无固定对象列表和可执行选择的真实机器人操作。

Abstract

large language models (LLMs) have unlocked new capabilities of task planning from human instructions. However, prior attempts to apply LLMs to real-world robotic tasks are limited by the lack of grounding in the

large language models robotic tasks scene representation contextual information nlmap

发现论文，激发创造

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

利用大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的能力，本研究提出了一个综合框架，模仿人类认知以实现对象目标导航问题的解决，通过关注、感知和存储任务特定信息，并生成相应计划。为了有效表示机器人周围的环境，提出使用语义丰富的 3D 场景模块化表示，并引入基于 LLM 的修剪策略以消除无关的目标特定信息。

Mar, 2024

机器人导航的视觉语言地图

本研究提出了 VLMaps，一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示，其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建，并且可以与多种类型的机器人共享，能够进行导航的同时生成新的障碍物地图。实验表明，VLMaps 可以支持人类语言含义更丰富的导航指令。

Oct, 2022

IVLMap: 消费级机器人导航的实例感知视觉语言定位

通过构建语义空间地图和使用大型语言模型的强大推理能力，我们提出了一种新的方法 IVLMap，使机器人能够获得实例级和属性级的语义映射，从而实现了精确定位和零 - shot 端到端导航任务的能力，并在导航准确性上实现了 14.4% 的平均改进。

Mar, 2024

Scene-LLM: 扩展语言模型用于 3D 视觉理解和推理

介绍了 Scene-LLM，一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的 3D 视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的 3D 帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

VoxPoser：使用语言模型构建可组合的三维价值地图，实现机器人操作

使用大型语言模型综合视觉 - 语言模型，生成适用于各种机器人操作的闭环轨迹。

Jul, 2023

SayPlan：利用 3D 场景图对大型语言模型进行基础，实现可扩展任务规划

SayPlan 是一种可扩展的、基于 LLM 的、大规模任务规划方法，使用 3D 场景图表示，在多层和多房间环境中对机器人的任务进行规划，其方法包括利用 3DSG 的分层结构和引入经典路径规划算法来降低规划范围，并使用迭代重新规划以在图形模拟器中反馈使行动可行和避免规划失败的信息。我们在两个大规模环境上进行了评估，显示了我们的方法能够从抽象和自然语言指令中为移动机械手执行大规模、长范围任务计划。

Jul, 2023

语义抽象：从 2D 视觉语言模型实现开放式三维场景理解

本文介绍了一种基于视觉语言模型的语义抽象框架，可以为机器人在未结构化的三维环境中推理，并学会三维空间和几何推理技能，并在两个开放式三维场景理解任务上进行了实验测试。

Jul, 2022

开放词汇的空间 - 语义表示的组合语义学

我们提出了潜在的组合语义嵌入 z * 作为查询空间语义记忆的基于学习的知识表示，并且证明了 z * 可以通过梯度下降的迭代优化被发现。我们通过实验证明了 z * 能够表示由 SBERT 编码的多达 10 个语义和理想均匀分布的高维嵌入的多达 100 个语义，同时展示了在 COCO-Stuff 数据集上针对 181 个重叠语义，经过密集 VLM 训练的 z * 具有 42.23 的 mIoU，相比于流行的 SOTA 模型改进了 3.48 的 mIoU 的传统非重叠开放词汇分割性能。

Oct, 2023

LLM-Grounder：使用大型语言模型作为代理人进行开放词汇三维视觉对接

LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型（LLM）的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素，并利用可视化定位工具识别 3D 场景中的对象，LLM-Grounder 评估所提议对象之间的空间和常识关系，从而做出最终的定位决策。该方法不需要有标签的培训数据，可应用于新型 3D 场景和任意文本查询，显示出最先进的零样本定位准确性。研究结果表明，LLM 显著提高了定位能力，尤其对于复杂语言查询，在机器人的 3D 视觉语言任务中，LLM-Grounder 是一种有效的方法。

Sep, 2023

基于语言的机器人导航的分层开放词汇三维场景图

本研究致力于解决大规模环境下对象层次之外的抽象查询对于基于语言引导的机器人导航的难题，通过构建一个层次化的开放词汇三维场景图映射方法（HOV-SG），将先进的开放词汇分割级别地图与自由导航相结合，并在覆盖面积上实现了大小的减少，并且在物体、房间和楼层级别上产生了超过之前基线的开放词汇语义准确度。

Mar, 2024