用 MASt3R 在 3D 中实现图像匹配

Jun, 2024

Grounding Image Matching in 3D with MASt3R

Vincent Leroy, Yohann Cabon, Jérôme Revaud

TL;DR通过在 DUSt3R 网络中引入新的头部，并训练密集局部特征以及附加匹配损失，我们改进了匹配能力，同时保持其鲁棒性，取得了显著的结果改进，击败了现有方法，并在多个匹配任务中实现了 30％的绝对改善。

Abstract

image matching is a core component of all best-performing algorithms and pipelines in 3D vision. Yet despite matching being fundamentally a 3d problem, intrinsically linked to camera pose and scene geometry, it i

image matching 3d problem dust3r dense local features mast3r

发现论文，激发创造

DUSt3R：简化几何三维视觉

DUSt3R 是一种新颖的范式，用于进行任意图像集合的密集和无约束立体三维重建，通过将成对的重建问题作为点图的回归来实现，进而实现单眼和双眼重建的统一，提供场景的三维模型和深度信息，并能够轻松恢复像素匹配、相对和绝对相机，DUSt3R 能够简化多种几何三维视觉任务。

Dec, 2023

2D3D-MATR: 图像与点云之间基于 2D-3D 匹配变换器的无检测配准

采用 2D3D-MATR 方法，我们提出了一种无需检测的方法，用于图像和点云之间的准确且鲁棒的配准。该方法在粗匹配的基础上，通过学习全局上下文约束和跨模态相关性，通过 transformer 实现多尺度金字塔和图像块焦点学习，解决了尺度不确定性问题，从而获得了比之前的最优模型 P2-Net 更高的配准率和稳定度。

Aug, 2023

TP3M: 基于 Transformer 的伪 3D 图像匹配带参考

本论文提出了一种基于 Transformer 的伪三维图像匹配方法，通过引入参考图像将源图像的 2D 特征升级为 3D 特征，并通过由粗到细的三维匹配与目标图像的 2D 特征进行匹配，从而提高了在具有大视角或光照变化或低纹理的场景中的匹配性能。实验结果表明，所提出的方法在同态估计、姿态估计和视觉定位任务中，在具有挑战性的场景中达到了最先进的水平。

May, 2024

2D3D-MatchNet：学习在 2D 图像和 3D 点云之间匹配关键点

本研究提出了一种名为 2D3D-MatchNet 的深度网络结构，能够直接从图像和点云中的 2D 和 3D 关键点描述符中匹配和建立 2D-3D 对应关系，并用于视觉位姿估计，结果表明该方法是可行的。

Apr, 2019

PMatch：用于密集几何匹配的成对掩蔽图像建模

本文通过对预训练模块重构和加入新模块，实现了稠密几何匹配任务的最优表现，并提供了相应的代码和模型。

Mar, 2023

利用摄影测量网格模型进行空地特征点匹配，实现集成化三维重建

在城市环境中，使用航空和地面图像相结合的方法提高了地表重建的效率。为了解决来自视角和光照条件的巨大差异导致的特征点匹配困难的问题，本文提出了一种新方法，利用摄影测量网格模型进行相机标定和图像匹配，这种方法具有线性时间复杂度，可以解决多个问题，从而得到更为准确完整的模型。

Feb, 2020

利用前沿的基于深度学习的图像匹配技术重建稀疏图像中的大场景

我们提出了一个在 AISG-SLA 视觉定位挑战竞赛中获得第一名的解决方案，该任务是估计通过一个车载相机在城市场景中连续拍摄的图像之间的相对运动。我们使用我们最近基于深度学习的匹配器 RoMa 对图像进行匹配，并从中样本点进行相对运动估计，取得了非常有竞争力的成绩 - 在挑战竞赛中排名第三。为了提高估计准确度，我们提取图像中的关键点，使用 RoMa 进行匹配，并使用 COLMAP 进行结构运动重建。我们选择最近的 DeDoDe 关键点因其高可重复性。此外，为了解决图像序列中的时间跳跃问题，我们使用 DINOv2 进行图像检索，并匹配特定的非连续图像对。这些改进使我们的解决方案超过了所有竞争对手。我们还通过匹配手动选择的非连续图像对，给出了图像检索方法可达到的精度的上限。

Oct, 2023

RoMa：重温稠密特征匹配的鲁棒损失

从马尔可夫链的角度重新审视强健损失，将匹配问题分解为粗匹配和细匹配两个阶段，提出了一种 RoMa 算法以进行本地特征精炼，实现了显著的性能提升。

May, 2023

基于图像的地理定位通过地面到 2.5D 地图匹配

本文研究基于图像的地理定位问题，通过在地图上确定地面视角的查询图像。我们提出了一种新的方法，通过 2.5D 空间中的结构高度来引导跨视图匹配，并借助多模态数据学习代表性嵌入。我们构建了第一个大规模的地面到 2.5D 地图地理定位数据集来验证我们的方法，并在单图像定位和路径定位等任务上进行了广泛实验，结果表明我们的方法在定位精度和收敛速度上明显优于之前的基于 2D 地图的方法。

Aug, 2023

COTR: 跨图片匹配的对应转换器

本研究提出了一种新颖的基于深度神经网络的图像对应关系发现框架，可以根据给定的两幅图像和一个查询点在其中一个图像中找到其在另一个图像中的对应关系，并可以检索稀疏或密集的对应关系，同时在推理时，递归地以估计为中心缩放，形成了多尺度通道，从而能够提供高度准确的对应关系。本方法在多个数据集和任务中明显优于现有技术，并不需要针对特定数据集进行重新训练。

Mar, 2021