Places: 用于深度场景理解的图像数据库

Oct, 2016

Places: 用于深度场景理解的图像数据库

Places: An Image Database for Deep Scene Understanding

Bolei Zhou, Aditya Khosla, Agata Lapedriza, Antonio Torralba, Aude Oliva

TL;DR本论文描述了一个 10 百万场景照片的库，利用卷积神经网络进行图像场景分类，具有高覆盖率和高多样性的实例，为解决目前难以解决的视觉识别问题提供了生态系统。

Abstract

The rise of multi-million-item dataset initiatives has enabled data-hungry machine learning algorithms to reach near-human semantic classificatio

multi-million-item dataset machine learning algorithms semantic classification convolutional neural networks visual recognition

发现论文，激发创造

面向视觉地点识别的大规模深度学习特征

该研究通过训练两个卷积神经网络 (CNN) 架构来实现特定位置识别任务，并采用多尺度特征编码方法生成具备不变性的特征。通过建立具有变化外观的特定场所数据集 (SPED)，该研究综合评估了所训练的网络，并证明相对于其他场所识别算法和预训练的 CNN，其性能平均提升了 10%。

Jan, 2017

Placepedia: 具有多面向注释的全面地点理解

本篇论文介绍了 Placepedia 这个包含超过 240k 个景点及其约 35M 张照片的大规模景点数据集。通过多方面的标注，模型的研究者们可以使用该数据集开展包括多层次景点识别和城市嵌入等多个方面的研究探索，建立视觉观测和社会文化内涵之间的联系。

Jul, 2020

GSV-Cities: 面向适当监督的视觉地点识别

本文旨在探究用于大规模视觉地点识别的表示学习方法，介绍了 GSV-Cities 数据集以及在该数据集上训练的深度度量学习网络的性能评估，最终提出了一种新的卷积聚集层，取得了大规模基准测试的新的最佳结果。

Oct, 2022

城市景观语义理解数据集

为解决现有数据集不能很好地捕捉真实城市场景的复杂性，我们引入了 Cityscapes—— 一个基准套件和大规模数据集，用于像素级和实例级语义标注的方法的训练和测试。

Apr, 2016

基于 Spatio-Semantic ConvNet 的视觉地点识别

该研究提出了一种采用卷积神经网络（VGG16）的激活层对地点图像进行编码的视觉地点识别系统。该系统采用了类似于图像检索流程的两阶段方法，并在第二阶段使用 CNN 特征来编码语义和空间信息，其效果在常见基准数据集上明显优于其他方法。

Sep, 2019

基于多分辨率 CNN 的辅助知识异构场景分类

本文提出了一种多分辨率卷积神经网络架构来捕捉多级场景信息，并设计了两种知识引导的消歧技术来解决标签模糊性问题，实验结果证明该方法在三个大型图像数据集上获得了最先进的结果，并在两个主要的场景识别挑战中获得了第二和第一的成绩。

Oct, 2016

使用 CNN 进行场景识别：对象，尺度和数据集偏差

通过分析 ImageNet-CNNs 和 Places-CNNs 在不同尺度上的响应，本文提出了一种基于尺度的深度学习算法，并发现 scale-specific CNN 对于提高物体场景识别的准确性至关重要。实验结果表明，简单而精心选择的 ImageNet-CNN 和 Places-CNN 的多尺度组合可以将 SUN397 的最新识别准确性推至 66.26％（甚至在更深的架构中达到 70.17％，与人类的表现相当）。

Jan, 2018

EigenPlaces: 视觉地点识别中训练鲁棒视角模型

基于视觉特征的图像识别的主要挑战是从不同视点识别地点，为了克服这个限制，我们提出了一种名为 EigenPlaces 的新方法，通过从不同视角聚类训练数据，将视点的稳健性融入到学习的全局描述符中，实验证明 EigenPlaces 在大多数数据集上表现优于现有方法，并且训练时所需的 GPU 内存减少了 60％，描述符的大小减小了 50％。

Aug, 2023

基于卷积神经网络的地点识别

本文介绍了一种基于 CNN 模型的场所识别技术，在空间和时间维度上使用组合得到 CNN 模型的强大特征，并应用于一些基准数据集进行评估，该技术在召回率上取得了 75％的提升和 100％精度，明显优于之前所有的最新技术。在本文中，还对所有 21 个层的特征进行了全面的性能比较，包括基准数据集和一个具有更大视角变化的第二个数据集。

Nov, 2014

使用卷积神经网络的语义正则化场景分类器，通过物体理解场景类别

本研究利用深度学习技术提高了机器人应用中的场景分类能力，通过语义分割对深度神经网络进行正则化，实现了基于对象知识的场景分类，比目前最先进的算法在 SUN RGB-D 数据集中获得了更好的表现，同时使语义分割性能达到了新的记录，并将算法成功应用于移动机器人捕捉的图像场景分类中。

Sep, 2015