OmniGlue: 基于基础模型引导的通用特征匹配

CVPRMay, 2024

OmniGlue: 基于基础模型引导的通用特征匹配

OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

Hanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo

TL;DROmniGlue 是第一个以广义化为核心原则设计的可学习图像匹配器，它利用视觉基础模型的广泛知识来指导特征匹配过程，提高对未知图像域的泛化能力，并且通过引入新颖的关键点位置引导的注意机制，分离空间和外观信息，从而实现了出色的匹配描述符。

Abstract

The image matching field has been witnessing a continuous emergence of novel learnable feature matching techniques, with ever-improving performance on conventional benchmarks. However, our investigation shows tha

image matching learnable feature generalization capabilities omniglue keypoint position-guided attention mechanism

发现论文，激发创造

LightGlue：轻松速配局部特征

LightGlue 是一种深度神经网络，可以跨图像学习匹配本地特征，并通过多个简单但有效的改进使其更加高效、精确、易于训练，尤其适用于对于视觉重叠度较高或外观变化有限的图像匹配问题，这为 3D 重建等对延迟敏感的应用开启了希望。

Jun, 2023

AffineGlue：联合匹配与稳健估计

我们提出了 AffineGlue，这是一种联合两视图特征匹配和鲁棒估计的方法，通过使用单点最小求解器减少问题的组合复杂性。AffineGlue 从一对多的对应中选择潜在匹配项来估计最小模型。引导匹配然后用于发现与模型一致的匹配，避免了一对一匹配的歧义。此外，我们推导出了一种新的最小求解器用于单应性矩阵估计，只需要一个仿射对应和重力先验。此外，我们训练了一个神经网络来排除不太可能导致良好模型的仿射对应。在真实数据集上，AffineGlue 优于 SOTA，即使假设重力方向向下。在 PhotoTourism 上，与 SOTA 相比，AUC@10° 的得分提高了 6.6 个点。在 ScanNet 上，AffineGlue 使 SuperPoint 和 SuperGlue 达到与无检测器的 LoFTR 相似的准确性。

Jul, 2023

使用图神经网络学习特征匹配的 SuperGlue

本文介绍了 SuperGlue，它是一个神经网络，通过联合找到对应和拒绝不可匹配的点，匹配两组局部特征。我们通过解决可微分的最优传输问题来估算分配，其成本由图神经网络预测。我们引入了一种基于注意力的灵活的上下文聚合机制，使 SuperGlue 能够联合推理基础的三维场景和特征分配。与传统的手动设计启发式技术相比，我们的技术通过从图像对的端到端训练来学习几何变换的先验知识和三维世界的规律性。SuperGlue 在挑战性的现实室内和室外环境中的姿态估计任务中优于其他学习方法，并实现了最先进的结果。所提出的方法可以在现代 GPU 上实时匹配，并可以轻松集成到现代 SfM 或 SLAM 系统中。代码和训练好的模型在 https URL 公开。

Nov, 2019

通过广义相似度度量和特征学习进行跨领域视觉匹配

本论文提出了一种新的成对相似度测量模型，该模型通过将传统线性投影扩展为仿射变换，并将仿射马氏距离和余弦相似度融合为数据驱动的组合，结合特征表示学习和深度卷积神经网络，实现了端到端的模型优化，在多个跨域匹配任务中测试并取得了优于其他现有方法的结果。

May, 2016

大规模图像和视频的通用对象基础模型

本研究提出了 GLEE，这是一个用于定位和识别图像和视频中对象的对象级基础模型。通过一个统一的框架，GLEE 在各种对象感知任务的开放世界场景中完成了检测、分割、跟踪、定位和识别任意对象的工作。它通过强大的学习策略从多样的数据源获得知识，构建了普适的对象表示，具有出色的零样本迁移和通用性能。此外，GLEE 还可作为大型语言模型的一部分，为多模态任务提供通用的对象级信息。

Dec, 2023

VideoGLUE: 视频通用理解基础模型评估

通过使用三种典型任务、八个备受社区欢迎的数据集和四种适配方法评估现有基础模型在视频理解方面的能力，并提出了一种衡量基础模型在适应一般视频理解任务时的有效性和效率的 VideoGLUE 分数 (VGS)。研究发现，与自然语言和图像理解中的基础模型成就形成鲜明对比，专门任务模型在本文所研究的六个基础模型中表现出显著的优势；包含视频模态的本机视频基础模型在分类富有动态的视频、时间定位动作和理解多个动作的视频方面通常表现更好；本机视频基础模型在轻微适配下（如冻结 FM 骨干）可以在视频任务上表现良好，而图像本机基础模型则在全面端到端的微调中胜出。前两项观察结果揭示了在视频基础模型方面进行研究的需求和巨大机遇，最后一项结果确认了在评估基础模型时任务和适配方法均起到重要作用。

Jul, 2023

GraftNet: 基于广谱和任务取向特征的领域通用立体匹配

利用大规模数据集训练的模型特征，采用余弦相似度为基础的代价体积作为桥梁，将特征嫁接到一个普通的代价聚合模块，以此来解决领域转化带来的一般化能力不足。通过将嫁接特征输入到一个浅层网络进行变换计算代价，从而恢复更多的任务 - specific 信息，大量实验表明，这种宽光谱和任务定向的特征可以显著提高模型的泛化能力。

Apr, 2022

从互联网视频中学习通用图像匹配器的方法

提出了 GIM：一个基于互联网视频的自我训练框架，通过结合标准领域特定数据集和互补匹配方法，在新的视频中创建密集标签，并通过强化增强的传播数据来训练单一通用模型，能够提高跨领域图像匹配的零样本性能。同时，引入了 ZEB 作为图像匹配的首个零样本评估基准。

Feb, 2024

GlueStick: 基于点线粘合的鲁棒图像匹配

本文提出一种新的匹配模式，将点、线及其描述符统一成一个单独的框架结构，并提出 GlueStick，一种深度匹配图神经网络，以便从不同的图像中取出两个线框并利用节点之间的连接信息更好地将它们粘合在一起。我们证明了这种匹配策略可以优于当前最先进的独立匹配线段和点的方法，适用于各种数据集和任务。

Apr, 2023

RGM: 一个强大的全能匹配模型

通过在多个尺度上迭代地探索几何相似性，并使用一种额外的不确定性估计模块进行稀疏化，我们提出了一种名为 RGM（Robust Generalist Matching）的深度模型，用于稀疏和密集匹配。通过生成具有较大间隔的光流监督，我们构建了一个包含稀疏对应关系真值的新的大规模数据集，从而缩小了合成训练样本和真实场景之间的差距。通过在大型混合数据上以两阶段方式学习匹配和不确定性估计，我们显著提高了我们所提出的 RGM 模型的泛化能力。在多个数据集上实现了零样本匹配和下游几何估计的卓越性能，优于先前的方法很多。

Oct, 2023