ICLRJan, 2024

MVSFormer++:揭示多视角立体匹配中 Transformer 细节中的问题

TL;DR近期基于学习的多视点立体(MVS)方法中,引入了具有注意机制的基于 Transformer 模型的最新进展;然而,现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究,导致深度估计能力有限。本文提出了 MVSFormer++ 方法,通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分,将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习,并采用不同的注意机制对特征编码器和代价体积正则化进行处理,分别关注特征和空间聚合。此外,我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能,包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是,MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。