SACReg: 场景无关的坐标回归视觉定位

Jul, 2023

SACReg: 场景无关的坐标回归视觉定位

SACReg: Scene-Agnostic Coordinate Regression for Visual Localization

Jerome Revaud, Yohann Cabon, Romain Brégier, JongMin Lee, Philippe Weinzaepfel

TL;DR在这篇论文中，我们提出了一种新的范式，即训练一个单一的通用场景坐标回归模型，然后将其部署到新的测试场景中，无论其规模如何，也无需进一步微调。该模型基于转换器架构，可以接受可变数量的图像和稀疏的 2D-3D 注释作为输入，并在一些多样的数据集上进行训练，显著优于其他场景回归方法，包括针对视觉定位的特定场景模型，并在剑桥定位基准测试中创造了新的最佳表现，甚至超过基于特征匹配的方法。

Abstract

scene coordinates regression (SCR), i.e., predicting 3D coordinates for every pixel of a given image, has recently shown promising potential. However, existing methods remain mostly scene-specific or limited to small scenes and thus hardly scale to realistic datasets. In this paper, we

scene coordinates regression generic scr model image retrieval structure-from-motion databases visual localization

发现论文，激发创造

HSCNet++：基于 Transformer 的分层场景坐标分类和回归用于视觉定位

本文提出了一种新的 Hierarchical Scene Coordinate 网络，可以在一个像素级的场景坐标的预测中，以逐层递进地方式执行粗到细的预测，这种新方法在单图像定位方面表现出较好的性能，并在 7-Scenes，12 Scenes，Cambridge Landmarks 数据集和室内场景数据集上创下了新的最佳表现。

May, 2023

视觉定位的分层场景坐标分类和回归

本研究提出了一种新的基于层次场景坐标网络的方法，用于从单个 RGB 图像中逐步预测像素场景坐标，并在单幅图像中取得了新的最佳单色彩 RGB 定位性能，同时也减小了性能差距。

Sep, 2019

基于图像的定位的场景坐标和对应关系学习

本篇论文提出了一种使用深度学习，通过像素级的场景坐标回归来进行相机姿态估计的方法，并通过回归的置信度值对相应的姿态进行自我校正和提高精度。

May, 2018

GLACE: 全球局部加速坐标编码

我们提出了一个名为 GLACE 的方法，通过引入共视性的概念，利用预训练的全局和局部编码将场景坐标回归方法扩展到大型场景，只需要一个小型网络。我们的方法在大型场景中不使用三维模型或深度图作为监督，取得了最先进的结果。

Jun, 2024

基于图像的定位的全幅场景坐标回归

采用全帧方式进行场景坐标回归可以在测试时间内提高计算效率并增加回归过程的全局上下文以提高稳健性，而数据增强则有助于减轻过度拟合问题，从而提高基于图像识别的定位场景坐标预测的鲁棒性。

Feb, 2018

将其上线：将场景坐标回归网络预测应用于在线 RGB-D 相机重定位

本研究提出了一种新的方法来利用在一个场景中训练的神经网络来预测另一个场景中的点，以实现相机在线定位，并在 7-Scenes 和 Cambridge Landmarks 数据集上实现了最先进的性能，运行时间低于 300 毫秒。

Jun, 2019

场景坐标重建：通过增量学习重定位器进行图像集合的姿态估计

我们通过学习基于场景坐标回归的重新定位方法实现了无特征匹配和高效优化的相机姿态估计，从而构建了隐式的神经场景表示。

Apr, 2024

基于神经辐射场的不确定性感知视觉定位

本文提出了一种使用神经辐射场（NeRF）生成训练样本的场景坐标回归（SCR）方法，并且通过设计 NeRF 来预测渲染数据的不确定性，在像素级别揭示数据的可靠性；将 SCR 公式化为带有认识不确定性的深度证据学习，用来评估信息获取与场景坐标质量；基于不确定性的三个方面，形成了一种新的视角选择策略，极大地提高了数据效率。实验结果表明，我们的方法能够选择带来最大信息增益的样本，并以最高效率提高性能。

Oct, 2023

基于全局唯一实例坐标回归的大规模联合语义重定位与场景理解

本研究提出了一种新颖的联合语义本地化和场景理解方法，通过训练卷积神经网络，通过物体实例的自我表征和 6-DoF 相机姿态预测来实现 3D 场景坐标估计，并且相比直接姿态回归或基于场景坐标的姿态估计算法更加准确。

Sep, 2019

SC-wLS：面向可解释的前馈相机重定位

本文提出了一种名为 SC-wLS 的前馈方法，该方法利用所有场景坐标估计来进行加权最小二乘姿态回归，通过被施加在 2D-3D 对应关系上的权重网络进行可区分的公式化，且只需要姿态监督，通过 7scenes 和剑桥数据集的评估表明，与之前的前馈方法相比，SC-wLS 方法显著提高了性能。此外，我们的 SC-wLS 方法还实现了一种新的功能：加权网络的自我监督测试时间适应。

Oct, 2022