基于语义增强的注意力学习用于视觉地点识别
本研究旨在通过多尺度注意力模块,实现从视觉和语义内容中学习鲁棒全局嵌入以及动态引导的分割过程,以提高视觉地点识别的准确性,同时提出第一个适用于地点识别和分割任务的合成世界数据集,实验证明方法在不同情景下具有良好性能。
Jan, 2022
本研究提出了一种跨域视觉地点识别任务,使用年龄不变的特征学习卷积神经网络和注意聚合模块实现跨域匹配不同领域中同一建筑物的图像,达到了 99% 的单域匹配和 20% 的跨域匹配的最佳成果。
Sep, 2019
本文介绍了一种新颖的基于 Transformer 的全局位置识别模型 TransVPR,该模型在多尺度上聚合任务相关特征,并通过空间匹配实现对全局视觉特征的候选人重新排序,具有最先进的性能并且计算时间和存储要求相对较低。
Jan, 2022
使用新的特征聚合方法,通过注册器辅助模型训练,以获取具有辨别性地点信息的全局和局部特征,并通过重新分配注意力权重将这些注册器舍弃,从而实现对原始图像表示中不稳定特征的有效分离,其表现超过了现有方法
May, 2024
利用预训练的模型实现可视化地点识别的平滑适应,既全局又局部地适应预训练模型,通过轻量级适配器调整以产生适用于地点匹配的全局和局部特征,并避免耗时的空间验证,在少量数据和训练时间下超过当前最先进方法,并仅使用两阶段地点识别方法运行时间的约 3%,在 MSLS 挑战榜单上排名第 1。
Feb, 2024
本文提出了一种运行时和数据高效的分层视觉场所识别(VPR)管道,通过结合数据驱动和免训练方法,在降低训练数据和影响训练与应用阶段分布差异方面取得了良好的平衡,该方法在大规模应用中表现出了更好的性能。
Mar, 2024
本论文提出了一种改进的视觉定位方法,通过使用连续相似性标签和广义对比损失函数代替传统的二元相似性标签和硬对样本挖掘,使得视觉识别表现得到了明显提升。
Mar, 2023
本文提出了 StructVPR,一种新的训练体系结构,以增强 RGB 全局特征中的结构知识,因此提高在不断变化的环境下的特征稳定性。 StructVPR 使用分割图像作为 CNN 网络中结构知识输入的更明确的源,并应用知识蒸馏来避免在线分割和测试中的 Seg-branch 推理。最终,StructVPR 使用全局检索仅在几项基准测试中取得了令人印象深刻的表现,并且即使在附加重新排名的情况下,仍然保持低的计算成本。
Dec, 2022
本文介绍了一个关注机制的结构化表示学习框架,可以预测图像类别标签和注意力映射,并在没有其他监督的情况下以端到端的方式进行学习,改进了性能,并在标准场景识别和细粒度分类基准测试中取得了最新成果。
May, 2018
本文提出一种新型混合系统,使用 SeqNet 生成临时描述符,并结合单图片学习描述符进行选择性控制序列得分汇总,以创建高性能初始匹配假设生成器,进而在挑战性基准数据集上达到超越现有最先进方法的效果。
Feb, 2021