通过密集场景匹配学习相机定位
本文针对如何从单个 RGB 图像中在给定的 3D 环境中预测 6D 相机姿态这一问题,通过设计并使用一个名为完全卷积神经网络的组件实现了高效、高精度和鲁棒性训练的端到端可训练的管道。令人惊奇的是,网络仅依靠单一视角的约束条件即可自动发现 3D 场景几何,甚至在没有利用场景 3D 模型的情况下,也能比现有技术更优秀。
Nov, 2017
在夜间场景、恶劣天气和季节变化等苛刻条件下进行视觉定位是一项具有挑战性的任务。本研究提出了一种新颖的定位方法,通过提取可靠的半稠密的 2D-3D 匹配点来改进相机位姿估计的准确性,即使在噪声场景中也能取得显著的成果。
Feb, 2024
本研究利用深度神经网络进行对物体在已知场景下的姿态估计,其中提出了使用场景无关的神经网络模型 PixLoc,通过特征学习和度量学习方法将相机定位问题转换为多尺度特征直接对齐,该模型以像素数据作为输入并经过端到端训练后能够在大型环境中实现定位,同时通过精确的稀疏特征匹配以更小的代价实现关键点和姿态的联合优化。
Mar, 2021
基于场景地标检测的摄像头定位方法,采用卷积神经网络(CNN)检测少量特定的场景 3D 点或地标,并从相关的 2D-3D 对应中计算摄像头姿态,具有与基于 3D 结构的方法相当的准确性,但速度更快且使用存储空间更少。
Jan, 2024
这篇论文介绍了一种基于学习的系统,可以通过单个输入图像相对于已知环境估计相机的位置和方向,该系统采用了深度神经网络和可完全微分的姿态优化,可以适应不同应用程序,包括使用 RGB-D 或 RGB 图像进行训练,并可以使用环境的三维模型进行训练,但不是必需品。
Feb, 2020
本研究提出了一种基于学习的直接定位方法,使用简单的网络 D2S 来表示本地描述符和场景坐标,通过选择性关注鲁棒描述符并忽略云、树木和其他动态物体的方法,完成了稀疏描述符的二元 - 语义分类,在室内和室外环境中超越了现有的基于 CNN 的方法。
Jul, 2023
该研究提出了一种基于深度学习的统一框架,通过将相机视频、运动传感器(GPS/IMU)和三维语义地图进行传感器融合,以实现自主驾驶、自我定位和场景分类等多个应用领域中场景解析和相机姿态同时处理的目的。研究使用的技术包括渲染技术,使用相机姿态和三维语义地图生成标注地图,并在深度神经网络中进行联合训练,以提高姿态估计精度。该研究表明,相较于单一传感器,传感器融合对于目标跟踪及姿态估计具有更高的鲁棒性和准确性。
May, 2018
本文提出了一种基于密集神经算法的同步定位与建图方法,使用深度学习生成的点云来锚定神经场景的特征,通过最小化基于 RGBD 的重新渲染损失,实现对跟踪和地图绘制的同时处理,通过在信息密度低的区域减少运行时间和内存使用,并将更高的点密度分配给解决更细节问题。在 Replica,TUM-RGBD 和 ScanNet 数据集上相对于现有的神经 RGBD SLAM 方法获得了更好或相似的跟踪,地图和渲染准确性。
Apr, 2023
本研究提出了一种新的基于层次场景坐标网络的方法,用于从单个 RGB 图像中逐步预测像素场景坐标,并在单幅图像中取得了新的最佳单色彩 RGB 定位性能,同时也减小了性能差距。
Sep, 2019