大规模应用中的视觉地理定位再思考

CVPRApr, 2022

大规模应用中的视觉地理定位再思考

Rethinking Visual Geo-localization for Large-Scale Applications

Gabriele Berton, Carlo Masone, Barbara Caputo

TL;DR在这篇论文中，我们构建了一个 30 倍于现有最大数据集的 San Francisco eXtra Large 数据集，研究了现有的技术在实际城市范围内的视觉定位应用中的性能表现，并设计了一种高度可扩展的训练技术 CosPlace，它将训练模型作为分类问题，避免了常用对比学习的昂贵挖掘技术，这种技术在多个数据集上均能实现最先进的表现，并且相对于现有技术，它需要的 GPU 内存减少了约 80％，且在描述符更小的情况下取得更好的结果。

Abstract

visual geo-localization (VG) is the task of estimating the position where a given photo was taken by comparing it with a large database of images of known locations. To investigate how existing techniques would perform on a real-world city-wide VG application, we build →

visual geo-localization dataset san francisco cosplace gpu memory

发现论文，激发创造

GSV-Cities: 面向适当监督的视觉地点识别

本文旨在探究用于大规模视觉地点识别的表示学习方法，介绍了 GSV-Cities 数据集以及在该数据集上训练的深度度量学习网络的性能评估，最终提出了一种新的卷积聚集层，取得了大规模基准测试的新的最佳结果。

Oct, 2022

跨域视觉地点识别仅需要本地特征吗？

本文研究使用基于空间验证的重新排序方法尝试解决视觉地方识别中光照和遮挡等困难问题，并给出了新的综合基准和两个具有挑战性的数据集。

Apr, 2023

ProGEO：通过图像 - 文本对比学习生成提示，用于视觉地理定位

使用 CLIP 和对比学习方法提高视觉地理定位中的视觉性能，并解决使用多模态模型处理地理图像时所面临的挑战。

Jun, 2024

自我监督表示学习的视觉地理定位

利用自监督学习方法提升视觉地理定位技术性能和训练效率，通过统合 SimCLR、MoCov2、BYOL、SimSiam、Barlow Twins 和 VICReg 等多种自监督学习方法，研究训练策略和参数设置对视觉地理定位任务的适应性

Jul, 2023

深度视觉地理位置基准测试

本文提出了一个新的开源基准测试框架，用于视觉地理定位，目的是建立一个系统性的评估协议，比较不同方法在性能（召回率 @N 度量）和系统要求方面的差异，并通过使用该框架执行一系列实验来提供选择使用 avebackone, 见识和负面开采的标准。同时，通过数据增强等工程技术，可以获得更好的性能。

Apr, 2022

CurriculumLoc: 通过多阶段改进增强跨领域地理定位

视觉地理定位方法的多阶段课程学习以及全局和局部特征的关键点检测、描述和位置调整使其成为一种实用的视觉地理定位解决方案，取得了高召回率的好成绩。

Nov, 2023

可解释的语义化照片地理定位

介绍了使用语义分割和特征分析方法来提高星球级照片定位准确性和可解释性。

Apr, 2021

大规模实时视觉惯性定位重访

本文提出了一种基于图像的定位方法，使用本地特征和稀疏的三维模型进行全球规模的离线和在线实时客户端姿态融合，实现低延迟本地化查询，证明了该方法在大规模模型上的有效性。

Jun, 2019

拥挤室内环境的大规模定位数据集

使用新型的激光雷达 SLAM 技术和结构运动优化方法在大型商场和地铁站获取室内数据集以便于在室内环境中进行视觉定位，并测试现代化的视觉定位算法，证明结构基方法使用健壮的图像特征具有更高的性能。

May, 2021

多尺度注意力学习视觉地点识别语义

本研究旨在通过多尺度注意力模块，实现从视觉和语义内容中学习鲁棒全局嵌入以及动态引导的分割过程，以提高视觉地点识别的准确性，同时提出第一个适用于地点识别和分割任务的合成世界数据集，实验证明方法在不同情景下具有良好性能。

Jan, 2022