CVPRMar, 2023

知识增强的视觉语言导航推理

TL;DR本文提出了一种基于 Knowledge Enhanced Reasoning Model (KERM)的 Vision-and-language navigation (VLN) 模型,通过整合从语言描述中提取出来的知识,结合视觉、历史、指令和事实特征,提高了实体代理从自然语言指令中导航到远程位置的能力,并在三个数据集上进行的实验结果证明了该方法的有效性。