VS-Net: 基于分割的投票式视觉定位

May, 2021

VS-Net: 基于分割的投票式视觉定位

VS-Net: Voting with Segmentation for Visual Localization

Zhaoyang Huang, Han Zhou, Yijin Li, Bangbang Yang, Yan Xu...

TL;DR该研究针对场景坐标回归方法在视觉定位中估计相机姿态时出现的问题，提出了一种基于可学习的场景特定地标的 2D-3D 对应的视觉定位框架，并使用一种叫做 VS-Net 的网络模型解决了大量的类别不平衡问题。该方法在多个公共基准测试中表现出优异的性能表现。

Abstract

visual localization is of great importance in robotics and computer vision. Recently, scene coordinate regression based methods have shown good performance in →

visual localization scene coordinate regression 2d-to-3d correspondences landmark generation vs-net

发现论文，激发创造

跨 IOU 损失的位置敏感视觉识别

LSNet 是一个深度神经网络，能够根据感兴趣目标的锚点和标志点确定目标的形状，其采用新型的损失函数进行优化，可在提高准确率的同时具有更好的融合信息的性能。实验证明，LSNet 能够在定位敏感型的视觉识别任务中创造最新的准确率记录，成为新一代无锚点目标检测和实例分割的领跑者，并能够有效检测多尺度的人体姿态。

Apr, 2021

HSCNet++：基于 Transformer 的分层场景坐标分类和回归用于视觉定位

本文提出了一种新的 Hierarchical Scene Coordinate 网络，可以在一个像素级的场景坐标的预测中，以逐层递进地方式执行粗到细的预测，这种新方法在单图像定位方面表现出较好的性能，并在 7-Scenes，12 Scenes，Cambridge Landmarks 数据集和室内场景数据集上创下了新的最佳表现。

May, 2023

VLocNet ++: 面向语义视觉定位和里程计的深度多任务学习

本研究提出了 VLocNet ++ 体系结构，采用多任务学习方法来利用学习语义，回归 6-DoF 全局姿势和里程计之间的相互关系，以使每个任务都获得相互的好处。我们的网络通过同时将世界的几何和语义知识嵌入姿势回归网络来克服上述限制。大量实验证明，我们的方法均能胜过以本地特征为基础的方法，同时实现多个任务并在挑战性场景中表现出相当的鲁棒性。

Apr, 2018

视觉定位的分层场景坐标分类和回归

本研究提出了一种新的基于层次场景坐标网络的方法，用于从单个 RGB 图像中逐步预测像素场景坐标，并在单幅图像中取得了新的最佳单色彩 RGB 定位性能，同时也减小了性能差距。

Sep, 2019

DeLS-3D: 3D 语义地图的深度定位与分割

该研究提出了一种基于深度学习的统一框架，通过将相机视频、运动传感器（GPS/IMU）和三维语义地图进行传感器融合，以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术，使用相机姿态和三维语义地图生成标注地图，并在深度神经网络中进行联合训练，以提高姿态估计精度。该研究表明，相较于单一传感器，传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。

May, 2018

SG-Net: 一阶段视频实例分割的空间粒度网络

本文提出了一种新型的一阶空间粒度网络（SG-Net）来应对视频实例分割任务，相较于传统两步骤方法，其具有更加紧凑的构架以及更好的运行时间复杂度表现，同时在精度上也表现出了更好的性能。

Mar, 2021

M^3VSNet: 无监督多指标多视角立体网络

本文提出了一种名为 M^3VSNet 的新型无监督多指标 MVS 网络，用于稠密点云重建，该网络通过结合像素和特征损失函数来学习来自不同视角的匹配对应的内在约束，并将深度图从相机空间转化为点云，并改善了深度图的精准性和连续性，该方法在 DTU 数据集上表现出了与以往有监督方法可比较的性能，并在坦克和寺庙基准测试中证明了其强大的泛化能力。

Apr, 2020

M^3VSNet: 无监督多度量多视角立体网络

提出了一种采用多指标无监督方法的多视点立体匹配网络，名为 M^3VSNet，用于稠密点云重建，结合像素级和特征级两种损失函数学习从不同角度的匹配对应的内在约束，并将法向深度一致性融入到三维点云格式中，从而提高深度估计图的准确性、连续性和鲁棒性。实验结果表明，该方法在 DTU 数据集上达到了有监督方法的水平，并在 Tanks and Temples 基准上获得了有效的改进和强大的泛化能力。

Apr, 2020

MVP-Net: 大规模点云的多视点语义分割

本文介绍了一种名为 MVP-Net 的神经网络结构，它可以高效地对大规模室外点云进行语义分割，而无需 KNN 算法，并且通过实验验证，MVP-Net 的速度是最有效的点云语义分割方法 RandLA-Net 的 11 倍，并在大规模基准数据集 SemanticKITTI 上达到相同的准确性。

Jan, 2022

相机定位的场景标记检测改进

基于场景地标检测的摄像头定位方法，采用卷积神经网络（CNN）检测少量特定的场景 3D 点或地标，并从相关的 2D-3D 对应中计算摄像头姿态，具有与基于 3D 结构的方法相当的准确性，但速度更快且使用存储空间更少。

Jan, 2024