ClusVPR:基于聚类加权 Transformer 的高效视觉地点识别
本文介绍了一种新颖的基于 Transformer 的全局位置识别模型 TransVPR,该模型在多尺度上聚合任务相关特征,并通过空间匹配实现对全局视觉特征的候选人重新排序,具有最先进的性能并且计算时间和存储要求相对较低。
Jan, 2022
本文提出了 StructVPR,一种新的训练体系结构,以增强 RGB 全局特征中的结构知识,因此提高在不断变化的环境下的特征稳定性。 StructVPR 使用分割图像作为 CNN 网络中结构知识输入的更明确的源,并应用知识蒸馏来避免在线分割和测试中的 Seg-branch 推理。最终,StructVPR 使用全局检索仅在几项基准测试中取得了令人印象深刻的表现,并且即使在附加重新排名的情况下,仍然保持低的计算成本。
Dec, 2022
提出了一种改进的多 DrosoNet 定位系统,名为 RegionDrosoNet,具有显著提高的 VPR 性能和低计算复杂度,充分考虑了外部模型差异,并引入了新的投票模块来组合所有 DrosoNet 的输出以得出最终的位置预测结果,该方法在处理外观变化和视点变化时表现优异,并且能够以计算复杂方法在线推断时间的一小部分来竞争一些基准数据集。
Dec, 2023
该论文旨在提高基于图像的位置估计方法(Visual Place Recognition)的精度,作者通过提出一种连续的地点描述符回归方法(Continuous Place-descriptor Regression),在已有的参考图片上进行插值和外推,以增加参考图片的密度,通过实验结果发现该方法可以提高约 30% 的定位精度,相比使用视角不变损失函数,该方法可以额外提高约 15%。
Apr, 2023
本文提出了一种多分辨率特征金字塔编码视觉识别方法,称为 MultiRes-NetVLAD,可以更准确地匹配全球地点描述符,从而使 global descriptor based retrieval 能够达到最先进的召回率水平。
Feb, 2022
使用新的特征聚合方法,通过注册器辅助模型训练,以获取具有辨别性地点信息的全局和局部特征,并通过重新分配注意力权重将这些注册器舍弃,从而实现对原始图像表示中不稳定特征的有效分离,其表现超过了现有方法
May, 2024
本研究提出了一种新的、无需训练的定位质量预测方法和一种利用这些预测来偏置序列匹配过程的新方法,使综合系统在四个数据集和三种 VPR 技术中得到了性能上的提升。
Jul, 2023
本论文提出了一种改进的视觉定位方法,通过使用连续相似性标签和广义对比损失函数代替传统的二元相似性标签和硬对样本挖掘,使得视觉识别表现得到了明显提升。
Mar, 2023
本文提出了一种针对 DrosoNet 的新型训练方法,其中在参考图像的不同区域上训练不同的模型,以便让它们专门处理该特定部分的视觉特征。此外,我们还介绍了一种类卷积预测方法,每个 DrosoNet 单元为查询图像的每个部分生成一组位置预测,然后使用之前介绍的投票系统将这些预测组合起来,此方法显著提高了之前工作的 Visual place recognition 性能,同时保持了极其紧凑和轻量级的算法,适用于资源受限的平台。
May, 2023
我们提出了一种名为 CricaVPR 的针对视觉地点识别的稳健的全局表示方法,利用自注意机制关联多个批次内的图像,以指导表示学习并提高鲁棒性。同时,我们提出了多尺度卷积增强适应方法,通过引入多尺度局部信息进一步增强跨图像相关性感知的表示。实验结果表明,我们的方法在 Pitts30k 数据集上使用 512 维全局特征实现了 94.5% 的 R@1,相比最先进方法大幅提升了性能并缩短了训练时间。
Feb, 2024