D2S：相机重定位中的本地描述符和全局场景坐标表示

Jul, 2023

D2S：相机重定位中的本地描述符和全局场景坐标表示

D2S: Representing local descriptors and global scene coordinates for camera relocalization

Bach-Thuan Bui, Dinh-Tuan Tran, Joo-Ho Lee

TL;DR本研究提出了一种基于学习的直接定位方法，使用简单的网络 D2S 来表示本地描述符和场景坐标，通过选择性关注鲁棒描述符并忽略云、树木和其他动态物体的方法，完成了稀疏描述符的二元 - 语义分类，在室内和室外环境中超越了现有的基于 CNN 的方法。

Abstract

State-of-the-art visual localization methods mostly rely on complex procedures to match local descriptors and 3D point clouds. However, these procedures can incur significant cost in terms of inference, storage, and updates over time. In this study, we propose a direct →

visual localization learning-based approach d2s sparse descriptors scene generalization

发现论文，激发创造

通过密集场景匹配学习相机定位

本文提出一种基于 DSM 和 CNN 的相机场景无关的定位方法，可应用于大范围场景，能够在时间领域实现额外的性能提升，大大优于 SANet 等现有方法。

Mar, 2021

视觉定位的分层场景坐标分类和回归

本研究提出了一种新的基于层次场景坐标网络的方法，用于从单个 RGB 图像中逐步预测像素场景坐标，并在单幅图像中取得了新的最佳单色彩 RGB 定位性能，同时也减小了性能差距。

Sep, 2019

使用 DSAC 从 RGB 和 RGB-D 图像中进行视觉相机重定位

这篇论文介绍了一种基于学习的系统，可以通过单个输入图像相对于已知环境估计相机的位置和方向，该系统采用了深度神经网络和可完全微分的姿态优化，可以适应不同应用程序，包括使用 RGB-D 或 RGB 图像进行训练，并可以使用环境的三维模型进行训练，但不是必需品。

Feb, 2020

学习少即是多 - 通过三维表面回归实现六自由度相机定位

本文针对如何从单个 RGB 图像中在给定的 3D 环境中预测 6D 相机姿态这一问题，通过设计并使用一个名为完全卷积神经网络的组件实现了高效、高精度和鲁棒性训练的端到端可训练的管道。令人惊奇的是，网络仅依靠单一视角的约束条件即可自动发现 3D 场景几何，甚至在没有利用场景 3D 模型的情况下，也能比现有技术更优秀。

Nov, 2017

HSCNet++：基于 Transformer 的分层场景坐标分类和回归用于视觉定位

本文提出了一种新的 Hierarchical Scene Coordinate 网络，可以在一个像素级的场景坐标的预测中，以逐层递进地方式执行粗到细的预测，这种新方法在单图像定位方面表现出较好的性能，并在 7-Scenes，12 Scenes，Cambridge Landmarks 数据集和室内场景数据集上创下了新的最佳表现。

May, 2023

D2-Net: 一个可训练卷积神经网络，用于局部特征的联合检测和描述

本文提出了一种使用卷积神经网络在像素级别取得可靠对应的方法，该模型可以同时作为密集特征描述符和特征检测器，并且在后期检测可以获得比传统低级结构的更稳定的关键点，从而实现了在无法获取更多注释信息的情况下训练该模型，该方法可以在难以定位的数据集（Aachen Day-Night localization dataset）和室内定位测试基准（InLoc indoor localization benchmark）中获得最先进的表现，同时在其他图像匹配和 3D 重建基准测试中也有竞争力。

May, 2019

相机定位的场景标记检测改进

基于场景地标检测的摄像头定位方法，采用卷积神经网络（CNN）检测少量特定的场景 3D 点或地标，并从相关的 2D-3D 对应中计算摄像头姿态，具有与基于 3D 结构的方法相当的准确性，但速度更快且使用存储空间更少。

Jan, 2024

基于图像的定位的场景坐标和对应关系学习

本篇论文提出了一种使用深度学习，通过像素级的场景坐标回归来进行相机姿态估计的方法，并通过回归的置信度值对相应的姿态进行自我校正和提高精度。

May, 2018

基于全局唯一实例坐标回归的大规模联合语义重定位与场景理解

本研究提出了一种新颖的联合语义本地化和场景理解方法，通过训练卷积神经网络，通过物体实例的自我表征和 6-DoF 相机姿态预测来实现 3D 场景坐标估计，并且相比直接姿态回归或基于场景坐标的姿态估计算法更加准确。

Sep, 2019

学习产生半密集对应关系进行视觉定位

在夜间场景、恶劣天气和季节变化等苛刻条件下进行视觉定位是一项具有挑战性的任务。本研究提出了一种新颖的定位方法，通过提取可靠的半稠密的 2D-3D 匹配点来改进相机位姿估计的准确性，即使在噪声场景中也能取得显著的成果。

Feb, 2024