Mar, 2023

一个具有身体的智能代理是否能够找到您的 “猫形杯”?基于 LLM 的零样本目标导航

TL;DR本文提出了一种新算法 LGX,采用 “语言驱动、零 - shot 方式” 的方法使机器人导航到一个在以前未被探索的环境中描述的目标对象,利用大型语言模型(LLMs)的能力将环境的语义上下文隐式知识映射为机器人运动规划的连续输入来做出导航决策,并同时利用经过预训练的视觉语言接地模型进行一般化目标对象检测,在 RoboTHOR 上实现了最新的零 - shot 目标导航结果,成功率(SR)比 OWL CoW 的当前基线提高了超过 27%,同时,我们还研究了利用 LLMs 进行机器人导航的用途,并分析了影响模型输出的各种语义因素,最后通过真实世界实验展示了 LGX 方法的优越性能,可有效导航和检测视觉上独特的对象。