DINO-Mix: 优化视觉地点识别的基础视觉模型和特征混合

Nov, 2023

DINO-Mix: 优化视觉地点识别的基础视觉模型和特征混合

DINO-Mix: Enhancing Visual Place Recognition with Foundational Vision Model and Feature Mixing

Gaoshuang Huang, Yang Zhou, Xiaofei Hu, Chenglong Zhang, Luying Zhao...

TL;DR通过利用 DINOv2 模型作为骨干网络对图像进行修剪和微调以提取鲁棒的图像特征，我们提出了一种名为 DINO-Mix 的新颖的 VPR 架构，通过基础视觉模型的强大图像特征提取能力和基于 MLP-Mixer 的特征聚合模块，实现全局鲁棒和可泛化的特征描述，从而实现高精度的 VPR。我们的实验证明，所提出的 DINO-Mix 架构显著优于当前最先进的方法，在具有光照变化、季节变化和遮挡的测试集上，分别达到了 91.75%、80.18% 和 82% 的 Top-1 准确率。与最先进的方法相比，我们的架构平均准确率提高了 5.14%。

Abstract

Utilizing visual place recognition (vpr) technology to ascertain the geographical location of publicly available images is a pressing issue for real-world →

visual place recognition vpr dinov2 model dino-mix architecture image features

发现论文，激发创造

EffoVPR：有效利用基础模型的视觉场所识别

使用自注意力层提取特征进行重新排序，结合 ViT 层用于全局特征生成，并且在具有遮挡、昼夜变化和季节变化的挑战场景中取得了最先进的结果。

May, 2024

视觉地点识别的最优输运聚合

通过 SALAD 方法，利用 DINOv2 作为 backbone，优化了视觉地点识别任务，提高了描述符的质量，并在公共 VPR 数据集中超越了单阶段和双阶段方法。

Nov, 2023

实现预训练模型在视觉地点识别中的无缝适应

利用预训练的模型实现可视化地点识别的平滑适应，既全局又局部地适应预训练模型，通过轻量级适配器调整以产生适用于地点匹配的全局和局部特征，并避免耗时的空间验证，在少量数据和训练时间下超过当前最先进方法，并仅使用两阶段地点识别方法运行时间的约 3％，在 MSLS 挑战榜单上排名第 1。

Feb, 2024

聚合多个生物启发式图像区域分类器用于有效且轻量级的视觉地点识别

提出了一种改进的多 DrosoNet 定位系统，名为 RegionDrosoNet，具有显著提高的 VPR 性能和低计算复杂度，充分考虑了外部模型差异，并引入了新的投票模块来组合所有 DrosoNet 的输出以得出最终的位置预测结果，该方法在处理外观变化和视点变化时表现优异，并且能够以计算复杂方法在线推断时间的一小部分来竞争一些基准数据集。

Dec, 2023

基于 Transformer 的多层注意力聚合地点识别

本文介绍了一种新颖的基于 Transformer 的全局位置识别模型 TransVPR，该模型在多尺度上聚合任务相关特征，并通过空间匹配实现对全局视觉特征的候选人重新排序，具有最先进的性能并且计算时间和存储要求相对较低。

Jan, 2022

StructVPR: 使用加权样本提取结构知识进行视觉地点识别

本文提出了 StructVPR，一种新的训练体系结构，以增强 RGB 全局特征中的结构知识，因此提高在不断变化的环境下的特征稳定性。 StructVPR 使用分割图像作为 CNN 网络中结构知识输入的更明确的源，并应用知识蒸馏来避免在线分割和测试中的 Seg-branch 推理。最终，StructVPR 使用全局检索仅在几项基准测试中取得了令人印象深刻的表现，并且即使在附加重新排名的情况下，仍然保持低的计算成本。

Dec, 2022

Patch-DrosoNet: 基于果蝇启发模型的图像划分分类，用于轻量级视觉地点识别

本文提出了一种针对 DrosoNet 的新型训练方法，其中在参考图像的不同区域上训练不同的模型，以便让它们专门处理该特定部分的视觉特征。此外，我们还介绍了一种类卷积预测方法，每个 DrosoNet 单元为查询图像的每个部分生成一组位置预测，然后使用之前介绍的投票系统将这些预测组合起来，此方法显著提高了之前工作的 Visual place recognition 性能，同时保持了极其紧凑和轻量级的算法，适用于资源受限的平台。

May, 2023

BEV2PR: 带有结构提示的 BEV 增强型视觉地点识别

通过利用鸟瞰视角中的结构线索，我们提出了一种新的基于图像的视觉位置识别（VPR）框架。该框架能够仅基于单个摄像头生成具有视觉线索和空间感知的复合描述符。在我们收集的 VPR-NuScenes 数据集上的实验证明，与其他常用的基于相机的 VPR 聚合模块相比，我们的 BEV2PR 框架在 Recall@1 上取得了 2.47% 的绝对增益，并在难样本上取得了 18.06% 的增益。

Mar, 2024

基于注册辅助的视觉地点识别聚合

使用新的特征聚合方法，通过注册器辅助模型训练，以获取具有辨别性地点信息的全局和局部特征，并通过重新分配注意力权重将这些注册器舍弃，从而实现对原始图像表示中不稳定特征的有效分离，其表现超过了现有方法

May, 2024

AnyLoc: 通向全球视觉地点识别的进展

通过使用通用特征表示和无监督特征聚合，本研究提出了一种适用于各种结构化和非结构化环境的通用视觉地点识别 (VPR) 解决方案，并取得了相较于现有方法高出 4 倍的显著性能提升，同时对特征进行语义属性建模获得 6% 的性能改善。

Aug, 2023