Nov, 2023

DINO-Mix: 优化视觉地点识别的基础视觉模型和特征混合

TL;DR通过利用 DINOv2 模型作为骨干网络对图像进行修剪和微调以提取鲁棒的图像特征,我们提出了一种名为 DINO-Mix 的新颖的 VPR 架构,通过基础视觉模型的强大图像特征提取能力和基于 MLP-Mixer 的特征聚合模块,实现全局鲁棒和可泛化的特征描述,从而实现高精度的 VPR。我们的实验证明,所提出的 DINO-Mix 架构显著优于当前最先进的方法,在具有光照变化、季节变化和遮挡的测试集上,分别达到了 91.75%、80.18% 和 82% 的 Top-1 准确率。与最先进的方法相比,我们的架构平均准确率提高了 5.14%。