Aug, 2023

基于基础模型的视觉与语言能力的行动感知零样本机器人导航

TL;DR我们提出了一种基于动作感知的零样本图像与语言导航(ZS-VLN)方法($A^2$Nav),通过利用基础模型的视觉和语言能力,将复杂的导航指令分解为一系列具有特定动作要求的对象导航子任务,然后学习一个由已收集到的具有不同特征的动作数据集构建的动作感知导航策略,以便按顺序执行这些子任务,从而实现导航指令的完整执行。实验证明,$A^2$Nav 在零样本图像与语言导航方面具有很好的性能,并且在 R2R-Habitat 和 RxR-Habitat 数据集上甚至超过了监督学习方法。