BriefGPT.xyz
Ask
alpha
关键词
instruction parser
搜索结果 - 2
基于在线视觉语言映射的真实世界视觉语言导航
在本文中,我们提出了一个在真实世界中解决 VLN 任务的新型导航框架,该框架利用强大的基础模型,并包括四个关键组成部分:(1) 将语言指令转换为预定义的宏操作描述的 LLMs-based 指令解析器,(2) 构建实时的视觉 - 语言地图以保
→
PDF
9 months ago
基于基础模型的视觉与语言能力的行动感知零样本机器人导航
我们提出了一种基于动作感知的零样本图像与语言导航(ZS-VLN)方法($A^2$Nav),通过利用基础模型的视觉和语言能力,将复杂的导航指令分解为一系列具有特定动作要求的对象导航子任务,然后学习一个由已收集到的具有不同特征的动作数据集构建的
→
PDF
a year ago
Prev
Next