本文采用卷积神经网络以及深度学习方法,通过对地球表面进行多尺度地理单元的细分,结合图像中的地标、天气模式、植被、道路标记和建筑细节等线索,利用海量地理标记图像进行分类,建立了一个名为 PlaNet 的模型,旨在通过照片图像实现定位识别,并结合长短时记忆神经网络,提高模型识别不确定图片的地理定位准确率。
Feb, 2016
提出了一种称为组合划分的简单但有效的算法,该算法通过相交多个粗粒度分割地球的分割方式,生成大量细粒度的输出类,使我们能够在细粒度上预测位置,同时为每个类别保持足够的训练示例。该算法在多个基准数据集上实现了最先进的位置识别性能。
Aug, 2018
本文提出了一个选择性预测方法来解决图片适合地理定位问题,其中包括两个选型函数,能够将不可定位的图片排除预测,大大提高了城市规模的地理定位精度,使得现有的地理定位模型在实际应用中更加可靠。
Nov, 2021
本文提出了将深度图像分类方法与原始的 Im2GPS 方法相结合,同时应用核密度估计来估计查询图片的地理位置,结果表明使用分类损失的网络训练比其他典型用于检索应用的深度特征学习方法(如对比学习和三元组损失的同构网络)表现更好,提高了地理定位的准确性并且需要更少的训练数据。
May, 2017
视觉地理定位方法的多阶段课程学习以及全局和局部特征的关键点检测、描述和位置调整使其成为一种实用的视觉地理定位解决方案,取得了高召回率的好成绩。
Nov, 2023
本文提出了 TransLocator,这是一种基于双分支 Transformer 网络的方法,使用单一 RGB 图像和其语义分割图像进行地理定位和场景识别的多任务学习,其在四个基准数据集上均获得了比现有方法高的准确度。
Apr, 2022
本文提出了一种新的多任务、多阶段神经网络,能够在单次前向传递中同时处理语义分割和基于视觉的航拍图像地理定位两个问题,并在卫星图像中实现商用 GPS 级别的本地化精度以及在 Inria Aerial Image Labeling 数据集和 Massachusetts Buildings 数据集上达到领先水平的分割效果。
Apr, 2018
本文旨在使用卷积神经网络来解决跨视角图像地理定位的问题,并介绍了用于地面图像和航拍图像的特征表示,并提出一种融合多个空间尺度提取的特征的网络架构,并通过实验表明其比现有方法更为优越。
Oct, 2015
该论文提出了一种基于联合三维几何和语义理解的新方法来解决计算机视觉中困难的视觉定位问题,该方法使用生成模型进行描述符学习,并在语义场景补全作为辅助任务进行训练,以使得生成的三维描述符具有鲁棒性,并能够实现在极端视角,光照和几何变化下的可靠定位。
Dec, 2017
本文系统考察了在细粒度图像分类中,如何利用地理位置信息来提高分类准确性,通过发布两个带有地理位置信息的数据集,实验结果表明,使用地理位置信息可以将模型的准确性从 70.1% 提高到 79.0%。研究还发现,针对资源有限的模型,建议使用特征调节模型,可以将模型准确性从 59.6% 提高到 72.2%。
Jun, 2019