- 动态调节视觉地点识别序列长度以达到最低可接受性能场景
使用校准数据集拟合模型,以覆盖目标定位性能,通过调整序列长度来最大化满足或超出目标性能的数据集部分的数量,同时最小化使用的中位长度。
- 告诉我你在哪里:多模态 LLMs 相遇地点识别
使用多模态大语言模型 (MLLMs) 来进行视觉地点识别,结合视觉观测和语言推理,借助视觉特征和 MLLMs 的推理能力,提供有效的地点识别解决方案。
- 打破框架:通过视觉重叠预测进行图像检索
通过视觉变换器主干和图像重叠预测,我们的方法借助于投票机制评估潜在数据库图像的重叠得分,从而在挑战性场景中提供更准确的相对姿态估计和定位结果。
- MeshVPR:基于 3D 网格的城市范围视觉地点识别
通过使用稠密的三维纹理网格进行大规模视觉地点识别,我们发现使用合成基于网格的数据库进行视觉地点识别相比于真实世界图像的检索存在显著性能下降。为了解决这个问题,我们提出了 MeshVPR,这是一种利用轻量级特征对齐框架来弥合真实世界和合成领域 - 航空影像的视觉地点识别:一项调查
本文提出了一种特定于航空影像领域的评估 VPR 技术的方法,提供了各种方法及其性能的全面评估。文章不仅比较了各种 VPR 方法,还展示了在构建地图瓷砖时选择适当的缩放和重叠级别以实现最大效率的重要性。
- EffoVPR:有效利用基础模型的视觉场所识别
使用自注意力层提取特征进行重新排序,结合 ViT 层用于全局特征生成,并且在具有遮挡、昼夜变化和季节变化的挑战场景中取得了最先进的结果。
- 基于注册辅助的视觉地点识别聚合
使用新的特征聚合方法,通过注册器辅助模型训练,以获取具有辨别性地点信息的全局和局部特征,并通过重新分配注意力权重将这些注册器舍弃,从而实现对原始图像表示中不稳定特征的有效分离,其表现超过了现有方法
- CVPRBoQ:一个地方值得一袋可学习的查询
在视觉地点识别中,通过引入一种名为查询包(BoQ)的新技术,该技术学习一组全局查询来捕捉普遍的地点特征,并利用交叉注意力实现一致的信息聚合。BoQ 通过与 CNN 和 Vision Transformer 骨干网络集成,并通过对 14 个大 - CVPR通过联邦学习的协作视觉地点识别
通过 Federated Learning,本研究提出了一种新颖的 Visual Place Recognition (VPR) 方法,通过使用深度神经网络提取图像的全局表示,并解决了 VPR 中的一些关键挑战,为 FL 领域的其他图像检索 - SPOT:基于点云的立体视觉地点识别(适用于类似和对立视点)
通過立體視覺測距法估計結構,並利用新的雙重距離矩陣序列匹配方法,提出了在有限視野下進行對立觀點的視覺地點識別方法,並在公開數據集上進行了評估,證明了其在對立觀點情況下相對其他方法具有顯著的改進,同時在類似觀點情況下也表現出競爭性能。
- TSCM: 一种利用跨度量知识蒸馏进行视觉地点识别的教师学生模型
我们提出了一种高性能的教师和轻量级学生蒸馏框架 TSCM,通过使用交叉度量知识蒸馏来缩小教师和学生模型之间的性能差距,提高识别准确度。该方法在大规模数据集上进行了全面评估,实验结果表明其在识别准确度和模型参数效率方面优于基线模型,而且我们的 - CVPR关于在视觉地点识别中估计图像匹配的不确定性
视觉地点识别(VPR)中,通过将查询图像与具有已知参考姿态的参考图像地图进行比较,估计查询图像的姿态。本文首次对主要的图像匹配不确定性估计方法进行了比较,包括传统的基于检索的不确定性估计、最近的数据驱动的不确定性估计以及计算密集型的几何验证 - NYC 室内长期视觉地点识别数据集与半自动标注
室内视觉地点识别对于人类和机器人的定位和导航具有益处。此论文介绍了 NYC-Indoor-VPR 数据集,它是纽约市 13 个不同拥挤场景的超过 36,000 张图片的独特且丰富的集合,这些图片采用了不同的光照条件和外观变化。为了建立视觉地 - JIST:序列视觉地点识别的联合图像和序列训练
通过利用 JIST 和 SeqGeM 提出的多任务学习框架和序列嵌入池化方法,本研究旨在通过视觉线索识别之前访问过的地点,以解决标记数据获取困难的问题,并在速度、嵌入大小、架构轻量化和处理多长度序列等方面优于现有技术。
- 通过事件相机的快速和慢速自适应偏置增强视觉位置识别
通过反馈控制算法自动调整偏置参数,该论文提出了适用于事件相机的快速和慢速自适应机制,来提高任务性能,尤其在可视地点识别任务中表现优异。
- 一种数据和运行高效的分层地点识别流程的局部位置图和关注局部特征
本文提出了一种运行时和数据高效的分层视觉场所识别(VPR)管道,通过结合数据驱动和免训练方法,在降低训练数据和影响训练与应用阶段分布差异方面取得了良好的平衡,该方法在大规模应用中表现出了更好的性能。
- VDNA-PR:基于通用数据集表示的鲁棒序列视觉地点识别
该研究利用视觉神经元激活值跟踪图像序列,提出了一种能够处理图像数据集的通用粒度特征表示方法,该方法可以用于实现视觉地点识别(VPR)并能够在处理室内环境和航空影像等领域巨大的领域变化时保持良好的鲁棒性。
- 利用通用投票方案提高视觉地点识别性能
本文通过分析不同的投票方案,提出了一种最大化视觉地点识别 (VPR) 集合设置的地点检测准确性并确定最佳投票方案的方法。通过在多个数据集上测试各种投票方案,我们旨在确定是否存在单一的最佳投票方案,或者选择投票技术是相对于其应用和环境的。同时 - CVPRCricaVPR:跨图像相关性感知表示学习用于视觉地点识别
我们提出了一种名为 CricaVPR 的针对视觉地点识别的稳健的全局表示方法,利用自注意机制关联多个批次内的图像,以指导表示学习并提高鲁棒性。同时,我们提出了多尺度卷积增强适应方法,通过引入多尺度局部信息进一步增强跨图像相关性感知的表示。实 - NocPlace: 运用生成和遗传知识迁移的夜间视觉地点识别
VPR is crucial in computer vision, and this paper proposes NocPlace, a system that addresses the cross-domain problem of