具有 Transformer 的多视角立体

Dec, 2021

Multi-View Stereo with Transformer

Jie Zhu, Bo Peng, Wanqing Li, Haifeng Shen, Zhe Zhang...

TL;DR本文介绍了一种称为 MVSTR 的网络，利用 Transformer 提取拥有全局上下文和三维一致性的密集特征，对于 Multi-View Stereo（MVS）可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题，提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块，并在实验中获得了最佳性能。

Abstract

This paper proposes a network, referred to as MVSTR, for multi-view stereo (MVS). It is built upon transformer and is capable of extracting dense features with →

multi-view stereo transformer global context 3d consistency matching

发现论文，激发创造

TransMVSNet：基于 Transformer 的全局上下文感知多视角立体网络

本研究提出了 TransMVSNet，它是基于多视图立体视觉（MVS）中的特征匹配的探索而来的，利用 Feature Matching Transformer 实现自内、交叉注意力聚合图像内外的长程上下文信息来完成 MVS 任务，并借助 Adaptive Receptive Field 模块和 Pair-wise feature correlation 量化特征的相似性和优化任务效果。实验结果表明，该方法在多个基准数据集上取得了最优的性能。

Nov, 2021

CT-MVSNet: 交叉尺度变换的高效多视角立体视觉

本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示，同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法，以提高深度估计的准确性。实验证明，这种方法在 DTU 数据集和 Tanks and Temples 基准测试中取得了最先进的结果。

Dec, 2023

MVSTER：高效的多视角立体匹配的基于极线变换机制的转换器

本文介绍一种名为 MVSTER 的新型多视角立体重建方法，该方法利用提出的极线 Transformer 以高效地学习 2D 和 3D 信息，采用级联结构以构建更精细的深度估计，通过熵正则化的最优传输算法来提高重建性能并显著减少运行时间。

Apr, 2022

MVSFormer++：揭示多视角立体匹配中 Transformer 细节中的问题

近期基于学习的多视点立体（MVS）方法中，引入了具有注意机制的基于 Transformer 模型的最新进展；然而，现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究，导致深度估计能力有限。本文提出了 MVSFormer++ 方法，通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分，将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习，并采用不同的注意机制对特征编码器和代价体积正则化进行处理，分别关注特征和空间聚合。此外，我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能，包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是，MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。

Jan, 2024

DeepMVS: 学习多视角立体视觉

DeepMVS 是一种用于多视图立体重建的深度卷积神经网络 (ConvNet)，它可以对任意数量的姿态图像进行处理以预测高质量的视差图，其有效的信息聚合方法和采用 VGG-19 网络的多层特征激活实现了优异的效果。

Apr, 2018

三维视觉对接的多视图 Transformer

这篇论文提出了一种基于多视角变换器（MVT）的方法，将 3D 场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。

Apr, 2022

基于 Transformer 的多视角三维重建

本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Mar, 2021

基于点的多视角立体网络

Point-MVSNet 是用 point clouds 直接处理目标场景的深度学习网络，通过将 3D 几何先验和 2D 纹理信息融入特征增强的 point cloud 中，实现了在 multi-view stereo 中更高的精度、更高的计算效率和更大的灵活性。

Aug, 2019

MVSNet: 不规则多视图立体的深度推断

本文提出了一种用于计算多视图深度图的端到端深度学习框架 (MVSNet)，首先提取深度视觉图像特征，然后利用不同 iable homography 变形构建 3D 成本体积，并使用 3D 卷积对初始深度图进行规则化和回归，最终与参考图像相结合生成最终输出，其通过引入基于方差的成本度量来适应任意 N-view 输入，其表现优于现有同类方法并能很好地泛化于室内室外数据。

Apr, 2018

DUSt3R：简化几何三维视觉

DUSt3R 是一种新颖的范式，用于进行任意图像集合的密集和无约束立体三维重建，通过将成对的重建问题作为点图的回归来实现，进而实现单眼和双眼重建的统一，提供场景的三维模型和深度信息，并能够轻松恢复像素匹配、相对和绝对相机，DUSt3R 能够简化多种几何三维视觉任务。

Dec, 2023