本文研究使用基于空间验证的重新排序方法尝试解决视觉地方识别中光照和遮挡等困难问题,并给出了新的综合基准和两个具有挑战性的数据集。
Apr, 2023
本文提出了一种高效的视频物体推荐生成方法及聚类方法,应用于对象检测,使得仅需对每帧中少量候选提议进行分类实现在视频中检测对象的效率提高,证明了该方法在 Youtube-Objects 数据集上达到了最先进的检测性能。
Jan, 2016
通过引入快速轻量级的框架,将图像和点云转换成具有地点鉴别性的描述符。实验结果表明,所提出的方法在实时执行的同时达到了最先进的性能,具有实际的泛化能力。
Mar, 2024
本文提出了一种运行时和数据高效的分层视觉场所识别(VPR)管道,通过结合数据驱动和免训练方法,在降低训练数据和影响训练与应用阶段分布差异方面取得了良好的平衡,该方法在大规模应用中表现出了更好的性能。
利用预训练的模型实现可视化地点识别的平滑适应,既全局又局部地适应预训练模型,通过轻量级适配器调整以产生适用于地点匹配的全局和局部特征,并避免耗时的空间验证,在少量数据和训练时间下超过当前最先进方法,并仅使用两阶段地点识别方法运行时间的约 3%,在 MSLS 挑战榜单上排名第 1。
Feb, 2024
本文提出了一种名为 OETR 的 Overlap Estimation 方法,该方法利用 Transformer 对图像对进行条件化,并在常见可见区域内约束本地特征匹配,并在特征相关性和重叠回归的两个步骤中执行重叠估计,可用于任何现有的局部特征检测和匹配流水线中,以减轻潜在的视角或尺度差异,实验表明该方法可以显着提高本地特征匹配的表现。
Feb, 2022
本研究提出采用 Vision Transformer 结构的 Pose-Conditioned Self-Loop Graph (ViPLO) 模型,通过特定的人体节点更新方式和局部特征的加入,解决了在人和物体之间关系推理中的量化问题,并在公共基准上取得了最新的成果。
我们提出了一种新颖的 Voxel-Cross-Pixel(VXP)方法,通过自监督方式建立了体素和像素之间的对应关系,并将其带入共享特征空间,从而解决了在不同领域(2D 图像和 3D 点云)提取一致且鲁棒的全局描述符的挑战。通过在三个基准测试集(Oxford RobotCar、ViViD++ 和 KITTI)上进行的大量实验证明,我们的方法在跨模态检索方面超越了现有技术的很大幅度。
本文提出了半监督视频对象分割的概念,给出了 Panoptic Wild Scenes 的大型基准和基线方法,建立了 VIPOSeg 数据集,提出了基于当下流行的 Transformer 的网格架构的强基线方法 PAOT,在 VIPOSeg 和其他 VOS 基准中取得了 SOTA 的性能,并在 VOT2022 挑战活动中获得第一名。
May, 2023
该论文提出一种基于姿态引导可见部分匹配 (PVPM) 方法,该方法在端到端框架中通过姿态引导注意力和自我挖掘部分可视性来共同学习判别特征以识别受遮挡的人物。实验结果表明,该方法在三个报道的受遮挡基准测试中达到了与最先进方法相媲美的性能。
Apr, 2020