利用前沿的基于深度学习的图像匹配技术重建稀疏图像中的大场景

IJCAIOct, 2023

利用前沿的基于深度学习的图像匹配技术重建稀疏图像中的大场景

Leveraging Cutting Edge Deep Learning Based Image Matching for Reconstructing a Large Scene from Sparse Images

Georg Bökman, Johan Edstedt

TL;DR我们提出了一个在 AISG-SLA 视觉定位挑战竞赛中获得第一名的解决方案，该任务是估计通过一个车载相机在城市场景中连续拍摄的图像之间的相对运动。我们使用我们最近基于深度学习的匹配器 RoMa 对图像进行匹配，并从中样本点进行相对运动估计，取得了非常有竞争力的成绩 - 在挑战竞赛中排名第三。为了提高估计准确度，我们提取图像中的关键点，使用 RoMa 进行匹配，并使用 COLMAP 进行结构运动重建。我们选择最近的 DeDoDe 关键点因其高可重复性。此外，为了解决图像序列中的时间跳跃问题，我们使用 DINOv2 进行图像检索，并匹配特定的非连续图像对。这些改进使我们的解决方案超过了所有竞争对手。我们还通过匹配手动选择的非连续图像对，给出了图像检索方法可达到的精度的上限。

Abstract

We present the top ranked solution for the AISG-SLA Visual Localisation Challenge benchmark (IJCAI 2023), where the task is to estimate relative motion between images taken in sequence by a camera mounted on a car driving through an urban scene. For matching images we use our recent deep lear

aisg-sla visual localisation challenge deep learning relative motion estimation keypoint extraction image retrieval

发现论文，激发创造

通过密集场景匹配学习相机定位

本文提出一种基于 DSM 和 CNN 的相机场景无关的定位方法，可应用于大范围场景，能够在时间领域实现额外的性能提升，大大优于 SANet 等现有方法。

Mar, 2021

场景坐标重建：通过增量学习重定位器进行图像集合的姿态估计

我们通过学习基于场景坐标回归的重新定位方法实现了无特征匹配和高效优化的相机姿态估计，从而构建了隐式的神经场景表示。

Apr, 2024

RoMa：重温稠密特征匹配的鲁棒损失

从马尔可夫链的角度重新审视强健损失，将匹配问题分解为粗匹配和细匹配两个阶段，提出了一种 RoMa 算法以进行本地特征精炼，实现了显著的性能提升。

May, 2023

多图像基于一致特征挖掘的语义匹配

本研究提出了一种多图像匹配方法以估计多个图像之间的语义对应关系，并且利用稀疏可靠特征匹配而非优化所有成对对应关系，同时还提出低秩约束来确保整个图像集上的特征一致性。该方法在多图匹配和语义流基准测试中表现优异，同时在不使用任何注释的情况下对重建对象类模型和发现对象类地标具有适用性。

Nov, 2017

跨宽基线的图像匹配：从理论到实践

本文介绍了一个用于本地特征与鲁棒估计算法的全面基准测试，旨在通过相机位姿的准确性作为主要指标。我们的管道模块化结构允许易于集成、配置和组合不同的方法和启发式算法。同时我们展示了如何嵌入数十种流行算法进行评估，进而表明经典算法在适当的设置下可能仍能胜过认为的最前沿机器学习研究。此外，我们实验发现一些意想不到的图像匹配解决方案的性质，这有助于改进它们的性能，无论是算法还是机器学习方法。我们提供了一个易于使用和灵活的框架，用于衡量本地特征与鲁棒估计方法，同时与顶级方法进行比较，构建了一个基础性的图像匹配挑战平台。

Mar, 2020

跨视角基于学习的关系对象匹配

本论文提出了一种基于 RGB 图像的目标检测匹配的学习方法，结合了局部关键点与新颖的物体级特征，通过关联图神经网络训练，在许多视图上具有较好的性能并优于现有的纯关键点匹配方法。

May, 2023

局部支持全局：带序列增强的深度相机重定位

使用序列图像中的局部信息支持全局相机重定位，提出了包括内容增强姿态估计和基于运动的细化两个步骤的新方法，实验结果表明我们的方法在一些具有挑战性的情况下表现优于最先进的方法，例如纹理不足、高度重复的纹理、相似的外观和过度曝光。

Aug, 2019

Facebook AI 图像相似度挑战赛的全局与本地双重检索解决方案

本研究提出了一种多分支检索方法，通过组合全局描述符和局部描述符来应对大规模数据以及图像复制攻击的挑战，其中包括丰富的数据增强和自监督学习等优化策略，并引入了鲁棒性较强的 SIFT 特征和 GPU Faiss 进行局部检索，在使用 KNN 匹配算法来判断匹配和合并分数时，我们展示了一些我们方法的消融实验，揭示了全局和局部特征的互补优势。

Dec, 2021

高分辨率图像上的分层深度立体匹配

我们提出了一种端到端的框架，通过逐层搜索相应关系来解决高分辨率图像上的实时立体匹配问题，利用所提出的数据集进行训练和评估并在速度上超过竞争对手，能够在低延迟（30 毫秒）内准确预测近距离结构的视差，所提出的层次结构设计可以灵活地平衡性能与速度，用于自动驾驶等时间关键的应用。

Dec, 2019

基于深度学习的立体稠密匹配数据集转移评估

从 LiDAR 和图像直接生成地面实况视差图以产生大量且多样化的数据集，并通过 LiDAR 与图像间的配准细化方法来避免精度损失和处理遮挡，从而实现了在不同数据集中评估 11 种密集匹配方法，其中 GANet 在相同的训练和测试数据上表现最佳，而 PSMNet 在不同数据集上表现稳健，并提出了在有限数据集上进行训练的最佳策略。

Feb, 2024