BriefGPT.xyz
Ask
alpha
关键词
street view
搜索结果 - 2
VELMA:街景视觉语言导航中 LLM 代理人的语言表达体现
该研究提出了一个用于视觉和语言导航的具有身体感知的语言模型(VELMA),它能够通过人类书写的导航指令中提取位置信息和使用 CLIP 算法来处理图像信息并实现与真实街景地图的交互,相比先前的研究,在两个数据集中,VELMA 完成任务的成功率
→
PDF
a year ago
基于几何引导的卫星图像街景全景合成
本文提出了一种新的方法,通过建立街景全景图和卫星图像之间的几何对应关系,生成具有新颖性的街景全景图,并展示它在场景几何上的优越性。
PDF
3 years ago
Prev
Next