- 神经隐式特征场的自监督学习用于相机姿态细化
通过在同一度量空间中嵌入图像特征提取器和体积特征场,通过对比框架对齐体积特征与图像特征并利用学习的表面信息对后者进行正则化,本文提出了一种联合学习场景表示、体积渲染和特征场设计的方法,用于视觉定位,并在真实场景中验证了该方法的有效性。
- CVPRGLACE: 全球局部加速坐标编码
我们提出了一个名为 GLACE 的方法,通过引入共视性的概念,利用预训练的全局和局部编码将场景坐标回归方法扩展到大型场景,只需要一个小型网络。我们的方法在大型场景中不使用三维模型或深度图作为监督,取得了最先进的结果。
- 航空影像的视觉地点识别:一项调查
本文提出了一种特定于航空影像领域的评估 VPR 技术的方法,提供了各种方法及其性能的全面评估。文章不仅比较了各种 VPR 方法,还展示了在构建地图瓷砖时选择适当的缩放和重叠级别以实现最大效率的重要性。
- 无人机视觉定位的大规模数据集:UAV-VisLoc
为解决无人机视觉定位问题,本文提出了一个大规模数据集 UAV-VisLoc,其中包含了来自中国 11 个地点的多种类型无人机图像和卫星地图,以支持模型的训练和测试。
- PRAM:用于高效视觉定位的任意地点识别模型
提出了一种地点识别模型 (PRAM),通过识别和注册两个组件,基于自我监督的地标定义策略和基于转换器的深度神经网络,使得 PRAM 能够像人类一样有效地执行视觉定位。
- 利用神经辐射场在关键点场景坐标回归中的描述符合成
通过使用神经辐射场(NeRF)合成关键点描述符的流程,提出了一种针对数据稀缺环境的解决方案,以增强关键点场景坐标回归(KSCR)模型的泛化能力,从而显著提高定位准确性
- 完美匹配:探索 NeRF 特征进行视觉定位
本研究提出使用神经辐射场(NeRF)作为视觉定位的场景表示,通过利用 NeRF 的内部特征建立精确的 2D-3D 匹配来提升定位性能。通过研究 NeRF 的隐式知识和探索不同的匹配网络架构、提取多层的编码器特征以及多种训练配置,引入了 Ne - 表示相机重定位的三维稀疏地图点和线
通过利用一个轻量级神经网络,我们展示了如何学习表示三维点和线特征,并通过多个学习映射的力量在姿态准确性方面取得领先的结果。我们通过使用一个转换器块编码线特征,将其有效地转化为独特的点式描述符,并在几个图层中集成自注意力和交叉注意力,从而有效 - 多旋翼飞行器定位的主动推进噪声整形
通过主动控制和塑造由旋翼产生的飞行器推进噪声,该论文提出了基于自噪声的已知环境中的定位的神经网络体系结构,通过与学习时间变化的旋翼相位调制相结合的训练,实现了准确和稳健的定位。
- ICLR利用生成式人工智能和几何一致性进行定位的防倾倒检索
通过使用生成性文本到图像模型从而扩展训练集,我们改进了图像检索步骤,并通过具体和底层几何特征将真实图像和合成图像混合进行训练,实现了挑战性视觉定位数据集的显著改善。
- 学习产生半密集对应关系进行视觉定位
在夜间场景、恶劣天气和季节变化等苛刻条件下进行视觉定位是一项具有挑战性的任务。本研究提出了一种新颖的定位方法,通过提取可靠的半稠密的 2D-3D 匹配点来改进相机位姿估计的准确性,即使在噪声场景中也能取得显著的成果。
- UAVD4L:无人机六自由度定位的大规模数据集
设计了一个大规模无人机数据集,采用两阶段的 6 自由度定位流程,利用此方法进行可视化定位,并在新数据集上进行了实验证明其有效性。
- AAAI基于点云神经辐射场的视觉定位
通过统一基于点的表示,本文提出了一种新颖的视觉定位框架 PNeRFLoc,结合传统的基于结构的方法和基于渲染的优化,利用神经辐射场(NeRF)模型与视觉定位的特征进行融合,以提高定位准确性和效率。在处理合成数据时表现出最佳性能,并在视觉定位 - 360Loc: 用于跨设备查询的全景视觉定位数据集和基准
360Loc 是首个基于可视定位的横跨设备视觉定位数据集和基准。通过结合 360° 图像和激光雷达数据生成全景真实 6DoF 姿态,360Loc 实现了 360° 视图映射,并通过虚拟相机方法为不同查询类型的视觉定位任务提供了公平比较性能的 - 联合优化的全局局部无人机视觉定位
我们提出了一种新颖的全局 - 本地视觉定位(GLVL)网络,通过结合大规模检索模块和细粒度匹配模块实现了无局限累积误差的实时精确定位,证实了我们方法在稀疏纹理特征的村庄场景下只有 2.39 米的 0.48 秒的定位误差。
- LocoNeRF:一种基于 NeRF 的局部运动结构方法用于精确定位
提出了一种利用运动感知结构(Structure from Motion,SfM)技术,通过利用神经辐射场(Neural Radiance Fields,NeRF)技术来提高视觉定位精度的新方法,并进行了与现有方法的存储和精度比较。
- ICCVEP2P-Loc:大规模视觉定位的端到端三维点到二维像素定位
通过建立参考地图并使用 EP2P-Loc 方法,本文提出了一种新颖的大规模视觉定位方法,绕过 2D 和 3D 感知模态之间的表示差异,从而实现端到端的姿态估计,并在实验中表现出与现有视觉定位方法和图像到点云注册方法相比的最先进性能。
- OFVL-MS:多个室内场景下的一次性视觉定位
利用多任务学习方式预测场景中的相机姿态,提出了 OFVL-MS 统一框架,通过设计适应性共享策略和梯度归一化算法,在减少存储成本和解决梯度冲突的基础上提高了视觉定位性能。
- D2S:相机重定位中的本地描述符和全局场景坐标表示
本研究提出了一种基于学习的直接定位方法,使用简单的网络 D2S 来表示本地描述符和场景坐标,通过选择性关注鲁棒描述符并忽略云、树木和其他动态物体的方法,完成了稀疏描述符的二元 - 语义分类,在室内和室外环境中超越了现有的基于 CNN 的方法 - SACReg: 场景无关的坐标回归视觉定位
在这篇论文中,我们提出了一种新的范式,即训练一个单一的通用场景坐标回归模型,然后将其部署到新的测试场景中,无论其规模如何,也无需进一步微调。该模型基于转换器架构,可以接受可变数量的图像和稀疏的 2D-3D 注释作为输入,并在一些多样的数据集