通过密集场景匹配学习相机定位

CVPRMar, 2021

Learning Camera Localization via Dense Scene Matching

Shitao Tang, Chengzhou Tang, Rui Huang, Siyu Zhu, Ping Tan

TL;DR本文提出一种基于 DSM 和 CNN 的相机场景无关的定位方法，可应用于大范围场景，能够在时间领域实现额外的性能提升，大大优于 SANet 等现有方法。

Abstract

camera localization aims to estimate 6 DoF camera poses from RGB images. Traditional methods detect and match interest points between a query image and a pre-built 3D model. Recent learning-based approaches encode scene structures into a specific →

camera localization convolutional neural network dense scene matching pnp algorithms temporal domain

发现论文，激发创造

学习少即是多 - 通过三维表面回归实现六自由度相机定位

本文针对如何从单个 RGB 图像中在给定的 3D 环境中预测 6D 相机姿态这一问题，通过设计并使用一个名为完全卷积神经网络的组件实现了高效、高精度和鲁棒性训练的端到端可训练的管道。令人惊奇的是，网络仅依靠单一视角的约束条件即可自动发现 3D 场景几何，甚至在没有利用场景 3D 模型的情况下，也能比现有技术更优秀。

Nov, 2017

学习产生半密集对应关系进行视觉定位

在夜间场景、恶劣天气和季节变化等苛刻条件下进行视觉定位是一项具有挑战性的任务。本研究提出了一种新颖的定位方法，通过提取可靠的半稠密的 2D-3D 匹配点来改进相机位姿估计的准确性，即使在噪声场景中也能取得显著的成果。

Feb, 2024

回到未来：从像素到姿态学习鲁棒的相机定位

本研究利用深度神经网络进行对物体在已知场景下的姿态估计，其中提出了使用场景无关的神经网络模型 PixLoc，通过特征学习和度量学习方法将相机定位问题转换为多尺度特征直接对齐，该模型以像素数据作为输入并经过端到端训练后能够在大型环境中实现定位，同时通过精确的稀疏特征匹配以更小的代价实现关键点和姿态的联合优化。

Mar, 2021

相机定位的场景标记检测改进

基于场景地标检测的摄像头定位方法，采用卷积神经网络（CNN）检测少量特定的场景 3D 点或地标，并从相关的 2D-3D 对应中计算摄像头姿态，具有与基于 3D 结构的方法相当的准确性，但速度更快且使用存储空间更少。

Jan, 2024

使用 DSAC 从 RGB 和 RGB-D 图像中进行视觉相机重定位

这篇论文介绍了一种基于学习的系统，可以通过单个输入图像相对于已知环境估计相机的位置和方向，该系统采用了深度神经网络和可完全微分的姿态优化，可以适应不同应用程序，包括使用 RGB-D 或 RGB 图像进行训练，并可以使用环境的三维模型进行训练，但不是必需品。

Feb, 2020

D2S：相机重定位中的本地描述符和全局场景坐标表示

本研究提出了一种基于学习的直接定位方法，使用简单的网络 D2S 来表示本地描述符和场景坐标，通过选择性关注鲁棒描述符并忽略云、树木和其他动态物体的方法，完成了稀疏描述符的二元 - 语义分类，在室内和室外环境中超越了现有的基于 CNN 的方法。

Jul, 2023

基于图像的定位的场景坐标和对应关系学习

本篇论文提出了一种使用深度学习，通过像素级的场景坐标回归来进行相机姿态估计的方法，并通过回归的置信度值对相应的姿态进行自我校正和提高精度。

May, 2018

DeLS-3D: 3D 语义地图的深度定位与分割

该研究提出了一种基于深度学习的统一框架，通过将相机视频、运动传感器（GPS/IMU）和三维语义地图进行传感器融合，以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术，使用相机姿态和三维语义地图生成标注地图，并在深度神经网络中进行联合训练，以提高姿态估计精度。该研究表明，相较于单一传感器，传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。

May, 2018

Point-SLAM：基于密集神经点云的 SLAM

本文提出了一种基于密集神经算法的同步定位与建图方法，使用深度学习生成的点云来锚定神经场景的特征，通过最小化基于 RGBD 的重新渲染损失，实现对跟踪和地图绘制的同时处理，通过在信息密度低的区域减少运行时间和内存使用，并将更高的点密度分配给解决更细节问题。在 Replica，TUM-RGBD 和 ScanNet 数据集上相对于现有的神经 RGBD SLAM 方法获得了更好或相似的跟踪，地图和渲染准确性。

Apr, 2023

视觉定位的分层场景坐标分类和回归

本研究提出了一种新的基于层次场景坐标网络的方法，用于从单个 RGB 图像中逐步预测像素场景坐标，并在单幅图像中取得了新的最佳单色彩 RGB 定位性能，同时也减小了性能差距。

Sep, 2019