Jul, 2023

VELMA:街景视觉语言导航中 LLM 代理人的语言表达体现

TL;DR该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型(VELMA),它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互,相比先前的研究,在两个数据集中,VELMA 完成任务的成功率相比前者提高了 25%-30%