BoQ：一个地方值得一袋可学习的查询

CVPRMay, 2024

BoQ：一个地方值得一袋可学习的查询

BoQ: A Place is Worth a Bag of Learnable Queries

Amar Ali-bey, Brahim Chaib-draa, Philippe Giguère

TL;DR在视觉地点识别中，通过引入一种名为查询包（BoQ）的新技术，该技术学习一组全局查询来捕捉普遍的地点特征，并利用交叉注意力实现一致的信息聚合。BoQ 通过与 CNN 和 Vision Transformer 骨干网络集成，并通过对 14 个大规模基准进行广泛实验表明了卓越的性能。同时，作为一种全局检索技术（一阶段），BoQ 在速度和效率上超过了 Patch-NetVLAD、TransVPR 和 R2Former 等两阶段检索方法。

Abstract

In visual place recognition, accurately identifying and matching images of locations under varying environmental conditions and viewpoints remains a significant challenge. In this paper, we introduce a new technique, called →

visual place recognition bag-of-queries global queries cross-attention interpretable attention mechanism

发现论文，激发创造

具有轻量级模型的位置感知视觉问题生成

本研究介绍了一种新颖的任务，即基于位置感知的视觉问题生成（LocaVQG），旨在从与特定地理位置相关的数据中生成引人入胜的问题。通过周围图像和 GPS 坐标将这种位置感知信息进行表示，并提出了一种利用 GPT-4 生成多样化和高级问题的数据集生成流程。然后，我们旨在学习一种轻量级模型，能够解决 LocaVQG 任务并适用于边缘设备，例如手机。为此，我们提出了一种可靠地从位置感知信息生成引人入胜问题的方法。我们所提出的方法在人工评估（如参与度，基准，连贯性）和自动评估指标（如 BERTScore，ROUGE-2）方面优于基线。此外，我们还进行了大量割离研究，以证明我们提出的数据集生成技术和任务解决方法的合理性。

Oct, 2023

跨域视觉地点识别仅需要本地特征吗？

本文研究使用基于空间验证的重新排序方法尝试解决视觉地方识别中光照和遮挡等困难问题，并给出了新的综合基准和两个具有挑战性的数据集。

Apr, 2023

可扩展实例搜索的局部卷积特征包

本文提出了一个基于卷积神经网络的局部特征编码和基于词袋模型的实例检索方法，该方法将每个卷积层中的局部激活函数数组映射到可视化词汇中，从而实现了空间重新排序和检索的目的，并在 Oxford 和 Paris buildings benchmarks 中取得了具有竞争力的性能表现。

Apr, 2016

EigenPlaces: 视觉地点识别中训练鲁棒视角模型

基于视觉特征的图像识别的主要挑战是从不同视点识别地点，为了克服这个限制，我们提出了一种名为 EigenPlaces 的新方法，通过从不同视角聚类训练数据，将视点的稳健性融入到学习的全局描述符中，实验证明 EigenPlaces 在大多数数据集上表现优于现有方法，并且训练时所需的 GPU 内存减少了 60％，描述符的大小减小了 50％。

Aug, 2023

OBoW: 自监督学习在线视觉词袋生成

本文提出了一种基于教师 - 学生模型的在线 BoW 指导下的无监督学习策略，探索了图像的重建方法来学习视觉表示，并在多个任务上实现了前所未有的性能提升。

Dec, 2020

图像分类与检索的特征包表示法介绍

该研究论文介绍了一种基于 Bag of Features (BoF) 方法的图像表示方法，重点介绍了最新的技术和解决问题的策略，并分析了 BoF 方法在图像检索、目标定位等领域的应用和局限性。

Jan, 2011

QR-CLIP: 为位置和时间推理引入显式的开放世界知识

该研究设计了一种基于 Horn 的 QR 理论的 QR-CLIP 模型，教导机器在图片中预测拍摄的位置和时间，相对于传统的图像分类任务有 10% 和 130% 的提升，对于机器学习和应用开放世界知识提出了重要启示。

Feb, 2023

多尺度注意力学习视觉地点识别语义

本研究旨在通过多尺度注意力模块，实现从视觉和语义内容中学习鲁棒全局嵌入以及动态引导的分割过程，以提高视觉地点识别的准确性，同时提出第一个适用于地点识别和分割任务的合成世界数据集，实验证明方法在不同情景下具有良好性能。

Jan, 2022

视觉问答的简单基线

提出了用于视觉问题回答的简单词袋基线模型，使用来自问题的单词特征和图像的 CNN 特征进行拼接以预测答案并在挑战性的 VQA 数据集上显示了与许多最新方法使用递归神经网络相当的性能。同时提供了交互式 Web 演示和开源代码以探索模型的优缺点。

Dec, 2015

基于视觉词袋的图像重构

本研究旨在从视觉单词（BoVW）中重建原始图像，提出了一种含自然性本地邻近性及全局位置的评估函数，并通过使用外部图像数据库获取相关参数的方法来估计原始布局，以达到成功重建 BoVW 的目的，并产生了 101 种不同物体的图像和新颖的 BoVW 图像。

May, 2015