Jun, 2024

GeoReasoner:使用大型视觉语言模型的街景推理地理定位

TL;DR使用具有人类推理知识的大型视觉语言模型(LVLM)的新范式来解决地理定位问题。该模型通过使用基于CLIP的网络来评估街景图像的可定位程度,并整合来自真实地理定位游戏的外部知识,训练出了一种名为GeoReasoner的模型,优于其他LVLM模型25%以上以及StreetCLIP模型,并且需要更少的训练资源。