MVSFormer++：揭示多视角立体匹配中 Transformer 细节中的问题

ICLRJan, 2024

MVSFormer++：揭示多视角立体匹配中 Transformer 细节中的问题

MVSFormer++: Revealing the Devil in Transformer's Details for Multi-View Stereo

Chenjie Cao, Xinlin Ren, Yanwei Fu

TL;DR近期基于学习的多视点立体（MVS）方法中，引入了具有注意机制的基于 Transformer 模型的最新进展；然而，现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究，导致深度估计能力有限。本文提出了 MVSFormer++ 方法，通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分，将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习，并采用不同的注意机制对特征编码器和代价体积正则化进行处理，分别关注特征和空间聚合。此外，我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能，包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是，MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。

Abstract

Recent advancements in learning-based multi-view stereo (MVS) methods have prominently featured transformer-based models with attention mechanism

multi-view stereo transformer-based models attention mechanisms depth estimation mvs pipeline

发现论文，激发创造

具有 Transformer 的多视角立体

本文介绍了一种称为 MVSTR 的网络，利用 Transformer 提取拥有全局上下文和三维一致性的密集特征，对于 Multi-View Stereo（MVS）可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题，提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块，并在实验中获得了最佳性能。

Dec, 2021

MVSTER：高效的多视角立体匹配的基于极线变换机制的转换器

本文介绍一种名为 MVSTER 的新型多视角立体重建方法，该方法利用提出的极线 Transformer 以高效地学习 2D 和 3D 信息，采用级联结构以构建更精细的深度估计，通过熵正则化的最优传输算法来提高重建性能并显著减少运行时间。

Apr, 2022

CT-MVSNet: 交叉尺度变换的高效多视角立体视觉

本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示，同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法，以提高深度估计的准确性。实验证明，这种方法在 DTU 数据集和 Tanks and Temples 基准测试中取得了最先进的结果。

Dec, 2023

TransMVSNet：基于 Transformer 的全局上下文感知多视角立体网络

本研究提出了 TransMVSNet，它是基于多视图立体视觉（MVS）中的特征匹配的探索而来的，利用 Feature Matching Transformer 实现自内、交叉注意力聚合图像内外的长程上下文信息来完成 MVS 任务，并借助 Adaptive Receptive Field 模块和 Pair-wise feature correlation 量化特征的相似性和优化任务效果。实验结果表明，该方法在多个基准数据集上取得了最优的性能。

Nov, 2021

多视角几何变换器用于 3D 人体姿态估计

我们的研究旨在提高 Transformer 的三维推理能力，在多视图三维人体姿势估计中。通过引入一种新的混合模型，MVGFormer，该模型采用一系列的几何和外观模块，以迭代方式组织。其中，几何模块通过几何方式处理依赖于视角的三维任务，显著改善了模型的泛化能力。外观模块是可学习的，并且专门用于从图像信号中端到端地估计二维姿势，即使在出现遮挡时也能获得准确的估计结果，从而实现了准确性和适用于新的摄像机和几何形状的模型。经过领域内外的评估，我们的模型始终优于最先进的方法，特别是在领域外的情况下有明显的优势。我们将发布代码和模型：this URL

Nov, 2023

CostFormer: 多视图立体匹配中的成本聚合成本变换器

本论文提出了一种名为 CostFormer 的高效 Transformer-based 成本聚合网络，其中 Residual Depth-Aware Cost Transformer（RDACT）用于通过沿深度和空间维度的自我注意机制聚合成本体上的长程特征，而 Residual Regression Transformer（RRT）则用于增强空间关注。

May, 2023

MVSNet: 不规则多视图立体的深度推断

本文提出了一种用于计算多视图深度图的端到端深度学习框架 (MVSNet)，首先提取深度视觉图像特征，然后利用不同 iable homography 变形构建 3D 成本体积，并使用 3D 卷积对初始深度图进行规则化和回归，最终与参考图像相结合生成最终输出，其通过引入基于方差的成本度量来适应任意 N-view 输入，其表现优于现有同类方法并能很好地泛化于室内室外数据。

Apr, 2018

DeepMVS: 学习多视角立体视觉

DeepMVS 是一种用于多视图立体重建的深度卷积神经网络 (ConvNet)，它可以对任意数量的姿态图像进行处理以预测高质量的视差图，其有效的信息聚合方法和采用 VGG-19 网络的多层特征激活实现了优异的效果。

Apr, 2018

多实体视频 Transformer 用于细粒度视频表示学习

通过重新审视变形器结构来改进视频表示学习领域的状态，利用多实体视频变换器架构及自我监督方法实现了在多个细粒度视频基准上的最先进结果。

Nov, 2023

基于 Transformer 的多视角三维重建

本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Mar, 2021