Mar, 2024

Img2Loc: 通过多模态基础模型和基于图像检索增强的生成,重新审视图像地理定位

TL;DRImg2Loc 是一个采用 GPT4V 或 LLaVA 等大型多模态模型进行检索增强生成的创新系统,通过重新定义图像地理定位作为文本生成任务,它不仅在 Im2GPS3k 和 YFCC4k 等基准数据集上超过了先前最先进的模型的性能,而且在没有任何模型训练的情况下做到了这一点。