基于 Transformer 的多层注意力聚合地点识别

CVPRJan, 2022

基于 Transformer 的多层注意力聚合地点识别

TransVPR: Transformer-based place recognition with multi-level attention aggregation

Ruotong Wang, Yanqing Shen, Weiliang Zuo, Sanping Zhou, Nanning Zheng

TL;DR本文介绍了一种新颖的基于 Transformer 的全局位置识别模型 TransVPR，该模型在多尺度上聚合任务相关特征，并通过空间匹配实现对全局视觉特征的候选人重新排序，具有最先进的性能并且计算时间和存储要求相对较低。

Abstract

visual place recognition is a challenging task for applications such as autonomous driving navigation and mobile robot localization. Distracting elements presenting in complex scenes often lead to deviations in the perception of visual place. To address this problem, it is crucial to i

visual place recognition transvpr transformers self-attention spatial matching

发现论文，激发创造

多尺度注意力学习视觉地点识别语义

本研究旨在通过多尺度注意力模块，实现从视觉和语义内容中学习鲁棒全局嵌入以及动态引导的分割过程，以提高视觉地点识别的准确性，同时提出第一个适用于地点识别和分割任务的合成世界数据集，实验证明方法在不同情景下具有良好性能。

Jan, 2022

基于注册辅助的视觉地点识别聚合

使用新的特征聚合方法，通过注册器辅助模型训练，以获取具有辨别性地点信息的全局和局部特征，并通过重新分配注意力权重将这些注册器舍弃，从而实现对原始图像表示中不稳定特征的有效分离，其表现超过了现有方法

May, 2024

PlaceFormer：基于多尺度图像块选择和融合的基于 Transformer 的视觉地点识别

PlaceFormer 是一种基于 Transformer 的视觉地点识别方法，它利用来自 Transformer 的 patch tokens 创建全局图像描述符，并通过几何验证选择与任务相关区域相对应的补丁，生成跨不同补丁尺寸的相似度分数，最终用于重新排列初始检索到的图像。在基准数据集上进行的广泛实验表明，PlaceFormer 在准确性和计算效率方面优于几种最先进的方法，且所需时间和内存较少。

Jan, 2024

ClusVPR：基于聚类加权 Transformer 的高效视觉地点识别

ClusVPR 是一种新颖的方法，通过引入基于聚类的加权变换网络（CWTNet）来解决视觉偏差问题，并且在大规模 VPR 问题中取得了优越的性能。

Oct, 2023

注意力感知对年龄无关的视觉地点识别

本研究提出了一种跨域视觉地点识别任务，使用年龄不变的特征学习卷积神经网络和注意聚合模块实现跨域匹配不同领域中同一建筑物的图像，达到了 99% 的单域匹配和 20% 的跨域匹配的最佳成果。

Sep, 2019

AnyLoc: 通向全球视觉地点识别的进展

通过使用通用特征表示和无监督特征聚合，本研究提出了一种适用于各种结构化和非结构化环境的通用视觉地点识别 (VPR) 解决方案，并取得了相较于现有方法高出 4 倍的显著性能提升，同时对特征进行语义属性建模获得 6% 的性能改善。

Aug, 2023

基于语义增强的注意力学习用于视觉地点识别

本文提出了一种基于语义增强的注意力学习网络方法，该方法利用本地加权方案和语义先验信息提高视觉地点识别（VPR）任务的表现，并在城市级别的 VPR 基准数据集上实现了优越性能。

Aug, 2021

EffoVPR：有效利用基础模型的视觉场所识别

使用自注意力层提取特征进行重新排序，结合 ViT 层用于全局特征生成，并且在具有遮挡、昼夜变化和季节变化的挑战场景中取得了最先进的结果。

May, 2024

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

RAMS-Trans: 基于循环注意力多尺度变换器进行细粒度图像识别

通过使用注意力权重来测量原始图像对应的补丁符记的重要性，我们提出了递归注意力多尺度转换器 (RAMS-Trans)，它使用变压器的自我注意力以多尺度的方式递归地学习区分地区的注意力。

Jul, 2021