Mar, 2024

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

TL;DR利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D 场景模块化表示,并引入基于 LLM 的修剪策略以消除无关的目标特定信息。