该研究通过训练两个卷积神经网络 (CNN) 架构来实现特定位置识别任务,并采用多尺度特征编码方法生成具备不变性的特征。通过建立具有变化外观的特定场所数据集 (SPED),该研究综合评估了所训练的网络,并证明相对于其他场所识别算法和预训练的 CNN,其性能平均提升了 10%。
Jan, 2017
本篇论文介绍了 Placepedia 这个包含超过 240k 个景点及其约 35M 张照片的大规模景点数据集。通过多方面的标注,模型的研究者们可以使用该数据集开展包括多层次景点识别和城市嵌入等多个方面的研究探索,建立视觉观测和社会文化内涵之间的联系。
Jul, 2020
本文旨在探究用于大规模视觉地点识别的表示学习方法,介绍了 GSV-Cities 数据集以及在该数据集上训练的深度度量学习网络的性能评估,最终提出了一种新的卷积聚集层,取得了大规模基准测试的新的最佳结果。
Oct, 2022
为解决现有数据集不能很好地捕捉真实城市场景的复杂性,我们引入了 Cityscapes—— 一个基准套件和大规模数据集,用于像素级和实例级语义标注的方法的训练和测试。
Apr, 2016
该研究提出了一种采用卷积神经网络(VGG16)的激活层对地点图像进行编码的视觉地点识别系统。该系统采用了类似于图像检索流程的两阶段方法,并在第二阶段使用 CNN 特征来编码语义和空间信息,其效果在常见基准数据集上明显优于其他方法。
Sep, 2019
本文提出了一种多分辨率卷积神经网络架构来捕捉多级场景信息,并设计了两种知识引导的消歧技术来解决标签模糊性问题,实验结果证明该方法在三个大型图像数据集上获得了最先进的结果,并在两个主要的场景识别挑战中获得了第二和第一的成绩。
Oct, 2016
通过分析 ImageNet-CNNs 和 Places-CNNs 在不同尺度上的响应,本文提出了一种基于尺度的深度学习算法,并发现 scale-specific CNN 对于提高物体场景识别的准确性至关重要。实验结果表明,简单而精心选择的 ImageNet-CNN 和 Places-CNN 的多尺度组合可以将 SUN397 的最新识别准确性推至 66.26%(甚至在更深的架构中达到 70.17%,与人类的表现相当)。
Jan, 2018
基于视觉特征的图像识别的主要挑战是从不同视点识别地点,为了克服这个限制,我们提出了一种名为 EigenPlaces 的新方法,通过从不同视角聚类训练数据,将视点的稳健性融入到学习的全局描述符中,实验证明 EigenPlaces 在大多数数据集上表现优于现有方法,并且训练时所需的 GPU 内存减少了 60%,描述符的大小减小了 50%。
Aug, 2023
本文介绍了一种基于 CNN 模型的场所识别技术,在空间和时间维度上使用组合得到 CNN 模型的强大特征,并应用于一些基准数据集进行评估,该技术在召回率上取得了 75%的提升和 100%精度,明显优于之前所有的最新技术。在本文中,还对所有 21 个层的特征进行了全面的性能比较,包括基准数据集和一个具有更大视角变化的第二个数据集。
Nov, 2014
本研究利用深度学习技术提高了机器人应用中的场景分类能力,通过语义分割对深度神经网络进行正则化,实现了基于对象知识的场景分类,比目前最先进的算法在 SUN RGB-D 数据集中获得了更好的表现,同时使语义分割性能达到了新的记录,并将算法成功应用于移动机器人捕捉的图像场景分类中。
Sep, 2015