开放式词汇可查询实景场景表示用于真实世界规划
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D 场景模块化表示,并引入基于 LLM 的修剪策略以消除无关的目标特定信息。
Mar, 2024
本研究提出了 VLMaps,一种将 3D 物理世界重建与预训练的视觉语言特征直接融合的空间地图表示,其能够通过大型语言模型将自然语言命令直接转化为空间导航目标。VLMaps 能够在不需要额外标注数据的情况下自主构建,并且可以与多种类型的机器人共享,能够进行导航的同时生成新的障碍物地图。实验表明,VLMaps 可以支持人类语言含义更丰富的导航指令。
Oct, 2022
通过构建语义空间地图和使用大型语言模型的强大推理能力,我们提出了一种新的方法 IVLMap,使机器人能够获得实例级和属性级的语义映射,从而实现了精确定位和零 - shot 端到端导航任务的能力,并在导航准确性上实现了 14.4% 的平均改进。
Mar, 2024
介绍了 Scene-LLM,一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的 3D 视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的 3D 帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
SayPlan 是一种可扩展的、基于 LLM 的、大规模任务规划方法,使用 3D 场景图表示,在多层和多房间环境中对机器人的任务进行规划,其方法包括利用 3DSG 的分层结构和引入经典路径规划算法来降低规划范围,并使用迭代重新规划以在图形模拟器中反馈使行动可行和避免规划失败的信息。我们在两个大规模环境上进行了评估,显示了我们的方法能够从抽象和自然语言指令中为移动机械手执行大规模、长范围任务计划。
Jul, 2023
本文介绍了一种基于视觉语言模型的语义抽象框架,可以为机器人在未结构化的三维环境中推理,并学会三维空间和几何推理技能,并在两个开放式三维场景理解任务上进行了实验测试。
Jul, 2022
我们提出了潜在的组合语义嵌入 z * 作为查询空间语义记忆的基于学习的知识表示,并且证明了 z * 可以通过梯度下降的迭代优化被发现。我们通过实验证明了 z * 能够表示由 SBERT 编码的多达 10 个语义和理想均匀分布的高维嵌入的多达 100 个语义,同时展示了在 COCO-Stuff 数据集上针对 181 个重叠语义,经过密集 VLM 训练的 z * 具有 42.23 的 mIoU,相比于流行的 SOTA 模型改进了 3.48 的 mIoU 的传统非重叠开放词汇分割性能。
Oct, 2023
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
本研究致力于解决大规模环境下对象层次之外的抽象查询对于基于语言引导的机器人导航的难题,通过构建一个层次化的开放词汇三维场景图映射方法(HOV-SG),将先进的开放词汇分割级别地图与自由导航相结合,并在覆盖面积上实现了大小的减少,并且在物体、房间和楼层级别上产生了超过之前基线的开放词汇语义准确度。
Mar, 2024