CT-MVSNet: 交叉尺度变换的高效多视角立体视觉

MMDec, 2023

CT-MVSNet: 交叉尺度变换的高效多视角立体视觉

CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer

Sicheng Wang, Hao Jiang, Lei Xiang

TL;DR本文提出了一种新颖的跨尺度变换器来处理不同阶段的特征表示，同时引入了自适应匹配感知变换器、双特征引导聚合和特征度量损失等方法，以提高深度估计的准确性。实验证明，这种方法在 DTU 数据集和 Tanks and Temples 基准测试中取得了最先进的结果。

Abstract

Recent deep multi-view stereo (MVS) methods have widely incorporated transformers into cascade network for high-resolution depth estimation, achieving impressive results. However, existing transformer-based metho

deep multi-view stereo transformers cross-scale transformer adaptive matching-aware transformer feature metric loss

发现论文，激发创造

TransMVSNet：基于 Transformer 的全局上下文感知多视角立体网络

本研究提出了 TransMVSNet，它是基于多视图立体视觉（MVS）中的特征匹配的探索而来的，利用 Feature Matching Transformer 实现自内、交叉注意力聚合图像内外的长程上下文信息来完成 MVS 任务，并借助 Adaptive Receptive Field 模块和 Pair-wise feature correlation 量化特征的相似性和优化任务效果。实验结果表明，该方法在多个基准数据集上取得了最优的性能。

Nov, 2021

具有 Transformer 的多视角立体

本文介绍了一种称为 MVSTR 的网络，利用 Transformer 提取拥有全局上下文和三维一致性的密集特征，对于 Multi-View Stereo（MVS）可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题，提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块，并在实验中获得了最佳性能。

Dec, 2021

MVSFormer++：揭示多视角立体匹配中 Transformer 细节中的问题

近期基于学习的多视点立体（MVS）方法中，引入了具有注意机制的基于 Transformer 模型的最新进展；然而，现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究，导致深度估计能力有限。本文提出了 MVSFormer++ 方法，通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分，将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习，并采用不同的注意机制对特征编码器和代价体积正则化进行处理，分别关注特征和空间聚合。此外，我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能，包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是，MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。

Jan, 2024

MMViT: 多尺度多视角视觉 Transformer

提出了一种名为 Multiscale Multiview Vision Transformers（MMViT）的 transformer 模型，它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图，并使用交叉注意力块将不同视图的信息融合在一起，从而实现对输入的复杂高维表示。在音频和图像分类任务上，通过实验证明了 MMViT 的有效性和达到了最先进的结果。

Apr, 2023

多阶段跨尺度注意力的视觉骨干增强

我们提出了一个简单的附加注意力模块，通过多阶段和跨尺度的相互作用，克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足，从而显着提高了性能。

Aug, 2023

MVSTER：高效的多视角立体匹配的基于极线变换机制的转换器

本文介绍一种名为 MVSTER 的新型多视角立体重建方法，该方法利用提出的极线 Transformer 以高效地学习 2D 和 3D 信息，采用级联结构以构建更精细的深度估计，通过熵正则化的最优传输算法来提高重建性能并显著减少运行时间。

Apr, 2022

CostFormer: 多视图立体匹配中的成本聚合成本变换器

本论文提出了一种名为 CostFormer 的高效 Transformer-based 成本聚合网络，其中 Residual Depth-Aware Cost Transformer（RDACT）用于通过沿深度和空间维度的自我注意机制聚合成本体上的长程特征，而 Residual Regression Transformer（RRT）则用于增强空间关注。

May, 2023

多尺度视觉变换器

Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器，它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔，它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。

Apr, 2021

基于曲率引导的动态尺度网络在多视图立体匹配中的应用

本文提出了一种动态尺度特征提取网络 (CDSFNet)，通过引导图像表面的法线曲率选择适当的补丁尺度，以学习判别特征，进而提高匹配成本的性能，该方法在复杂的室外场景中性能优于其他最先进的方法，并能够以更快的运行时间和更低的内存处理更高分辨率的输入。

Dec, 2021

高效多尺度多模态瓶颈变压器用于音视频分类

本文介绍了一种多尺度多模态转换器（MMT），利用层次化表示学习，进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合，提高动作识别准确率。

Jan, 2024