视觉地点识别的最优输运聚合
使用新的特征聚合方法,通过注册器辅助模型训练,以获取具有辨别性地点信息的全局和局部特征,并通过重新分配注意力权重将这些注册器舍弃,从而实现对原始图像表示中不稳定特征的有效分离,其表现超过了现有方法
May, 2024
本文介绍了一种新颖的基于 Transformer 的全局位置识别模型 TransVPR,该模型在多尺度上聚合任务相关特征,并通过空间匹配实现对全局视觉特征的候选人重新排序,具有最先进的性能并且计算时间和存储要求相对较低。
Jan, 2022
本文提出了一种多分辨率特征金字塔编码视觉识别方法,称为 MultiRes-NetVLAD,可以更准确地匹配全球地点描述符,从而使 global descriptor based retrieval 能够达到最先进的召回率水平。
Feb, 2022
通过利用 DINOv2 模型作为骨干网络对图像进行修剪和微调以提取鲁棒的图像特征,我们提出了一种名为 DINO-Mix 的新颖的 VPR 架构,通过基础视觉模型的强大图像特征提取能力和基于 MLP-Mixer 的特征聚合模块,实现全局鲁棒和可泛化的特征描述,从而实现高精度的 VPR。我们的实验证明,所提出的 DINO-Mix 架构显著优于当前最先进的方法,在具有光照变化、季节变化和遮挡的测试集上,分别达到了 91.75%、80.18% 和 82% 的 Top-1 准确率。与最先进的方法相比,我们的架构平均准确率提高了 5.14%。
Nov, 2023
通过使用通用特征表示和无监督特征聚合,本研究提出了一种适用于各种结构化和非结构化环境的通用视觉地点识别 (VPR) 解决方案,并取得了相较于现有方法高出 4 倍的显著性能提升,同时对特征进行语义属性建模获得 6% 的性能改善。
Aug, 2023
本文提出了一种运行时和数据高效的分层视觉场所识别(VPR)管道,通过结合数据驱动和免训练方法,在降低训练数据和影响训练与应用阶段分布差异方面取得了良好的平衡,该方法在大规模应用中表现出了更好的性能。
Mar, 2024
在具有相似场景(如城市或室内场景)的区域中,视觉地点识别(VPR)是一个主要挑战,Patch-NetVLAD + 提出了一种微调策略和三元组损失,使 NetVLAD 适用于提取补丁级别描述符,并为 VPR 中至关重要的 LSR 分配适当的权重
Feb, 2022
利用预训练的模型实现可视化地点识别的平滑适应,既全局又局部地适应预训练模型,通过轻量级适配器调整以产生适用于地点匹配的全局和局部特征,并避免耗时的空间验证,在少量数据和训练时间下超过当前最先进方法,并仅使用两阶段地点识别方法运行时间的约 3%,在 MSLS 挑战榜单上排名第 1。
Feb, 2024
通过提出一种称为 AANet 的统一网络,该网络能够提取候选物体的全局特征并通过动态对齐局部特征进行重新排序,从而显著提高视觉地点识别(VPR)的效率,并使用一种称为 ShPSM 的半硬正样本挖掘策略选择更具鲁棒性的正样本进行训练。在四个基准 VPR 数据集上进行广泛实验后,结果显示 AANet 能够在更少的时间消耗下优于几种最先进的方法。
Oct, 2023