Img2Loc: 通过多模态基础模型和基于图像检索增强的生成，重新审视图像地理定位

Mar, 2024

Img2Loc: 通过多模态基础模型和基于图像检索增强的生成，重新审视图像地理定位

Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation

PDF

Zhongliang Zhou, Jielu Zhang, Zihan Guan, Mengxuan Hu, Ni Lao...

TL;DRImg2Loc 是一个采用 GPT4V 或 LLaVA 等大型多模态模型进行检索增强生成的创新系统，通过重新定义图像地理定位作为文本生成任务，它不仅在 Im2GPS3k 和 YFCC4k 等基准数据集上超过了先前最先进的模型的性能，而且在没有任何模型训练的情况下做到了这一点。

Abstract

geolocating precise locations from images presents a challenging problem in computer vision and information retrieval.Traditional methods typically employ either →

geolocating image geolocalization classification retrieval img2loc

发现论文，激发创造

深度学习时代的 IM2GPS 重访

本文提出了将深度图像分类方法与原始的 Im2GPS 方法相结合，同时应用核密度估计来估计查询图片的地理位置，结果表明使用分类损失的网络训练比其他典型用于检索应用的深度特征学习方法（如对比学习和三元组损失的同构网络）表现更好，提高了地理定位的准确性并且需要更少的训练数据。

May, 2017

G3：基于大规模多模态模型的全球地理定位的有效和自适应框架

提出了基于检索增强生成 (RAG) 的 G3 框架，通过全球地理位置定位的几个步骤以优化检索和生成阶段，该框架在全球上下文中优于其他先进方法。

May, 2024

CurriculumLoc: 通过多阶段改进增强跨领域地理定位

视觉地理定位方法的多阶段课程学习以及全局和局部特征的关键点检测、描述和位置调整使其成为一种实用的视觉地理定位解决方案，取得了高召回率的好成绩。

Nov, 2023

GeoCLIP：基于 Clip 的位置和图像对齐，实现有效的全球地理定位

GeoCLIP 是一种新颖的受 CLIP 启发的图像到 GPS 检索方法，通过对图像和其对应 GPS 位置之间的对齐实现了对全球范围内图像的精确定位。在基准数据集上的广泛实验和消融分析表明我们的方法取得了有竞争力的性能，并且在有限数据的情况下也具有有效性。此外，我们通过利用图像编码器的 CLIP 骨干来定性地演示了使用文本查询的地理定位。

Sep, 2023

LLMGeo: 大规模语言模型在野外图像地理定位中的基准测试

利用多模态语言模型，我们系统评估其图片地理定位能力，并通过新的图像数据集和全面的评估框架进行训练及非训练的评估。结果表明，闭源模型展示出更好的地理定位能力，而开源模型通过微调可达到相当的性能。

May, 2024

世界上这张图片是在哪里？基于 Transformer 的野外地理定位

本文提出了 TransLocator，这是一种基于双分支 Transformer 网络的方法，使用单一 RGB 图像和其语义分割图像进行地理定位和场景识别的多任务学习，其在四个基准数据集上均获得了比现有方法高的准确度。

Apr, 2022

ProGEO：通过图像 - 文本对比学习生成提示，用于视觉地理定位

使用 CLIP 和对比学习方法提高视觉地理定位中的视觉性能，并解决使用多模态模型处理地理图像时所面临的挑战。

Jun, 2024

基于图像的地理定位通过地面到 2.5D 地图匹配

本文研究基于图像的地理定位问题，通过在地图上确定地面视角的查询图像。我们提出了一种新的方法，通过 2.5D 空间中的结构高度来引导跨视图匹配，并借助多模态数据学习代表性嵌入。我们构建了第一个大规模的地面到 2.5D 地图地理定位数据集来验证我们的方法，并在单图像定位和路径定位等任务上进行了广泛实验，结果表明我们的方法在定位精度和收敛速度上明显优于之前的基于 2D 地图的方法。

Aug, 2023

具有轻量级模型的位置感知视觉问题生成

本研究介绍了一种新颖的任务，即基于位置感知的视觉问题生成（LocaVQG），旨在从与特定地理位置相关的数据中生成引人入胜的问题。通过周围图像和 GPS 坐标将这种位置感知信息进行表示，并提出了一种利用 GPT-4 生成多样化和高级问题的数据集生成流程。然后，我们旨在学习一种轻量级模型，能够解决 LocaVQG 任务并适用于边缘设备，例如手机。为此，我们提出了一种可靠地从位置感知信息生成引人入胜问题的方法。我们所提出的方法在人工评估（如参与度，基准，连贯性）和自动评估指标（如 BERTScore，ROUGE-2）方面优于基线。此外，我们还进行了大量割离研究，以证明我们提出的数据集生成技术和任务解决方法的合理性。

Oct, 2023

Text2Loc：3D 点云定位的自然语言描述方法

我们提出了一种新型的神经网络 Text2Loc，通过几个自然语言描述实现了基于 3D 点云定位，并完全解释了点与文本之间的语义关系，实现了粗 - 细定位的本地化过程，文本子图全局位置识别中，用分层 Transformer 和最大池化捕获了每个文本提示之间的关系动态，而使用文本子图对比学习保持了正负样本之间的平衡；此外，我们还提出了一种新颖的无匹配精细定位方法，进一步提升了位置预测的准确性，摆脱了复杂的文本实例匹配需求，并且比之前的方法更轻量化、更快速、更准确。大量实验证明，Text2Loc 在 KITTI360Pose 数据集上超过了当前最先进技术，定位准确度提升了 2 倍。我们将公开提供代码。

Nov, 2023