CT-MVSNet: 交叉尺度变换的高效多视角立体视觉
本研究提出了 TransMVSNet,它是基于多视图立体视觉(MVS)中的特征匹配的探索而来的,利用 Feature Matching Transformer 实现自内、交叉注意力聚合图像内外的长程上下文信息来完成 MVS 任务,并借助 Adaptive Receptive Field 模块和 Pair-wise feature correlation 量化特征的相似性和优化任务效果。实验结果表明,该方法在多个基准数据集上取得了最优的性能。
Nov, 2021
本文介绍了一种称为 MVSTR 的网络,利用 Transformer 提取拥有全局上下文和三维一致性的密集特征,对于 Multi-View Stereo(MVS)可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题,提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块,并在实验中获得了最佳性能。
Dec, 2021
近期基于学习的多视点立体(MVS)方法中,引入了具有注意机制的基于 Transformer 模型的最新进展;然而,现有方法对 Transformer 在不同 MVS 模块上的深远影响尚未进行彻底研究,导致深度估计能力有限。本文提出了 MVSFormer++ 方法,通过充分利用注意机制固有特性增强 MVS 流程的各个组成部分,将跨视图信息融入预训练的 DINOv2 模型以促进 MVS 学习,并采用不同的注意机制对特征编码器和代价体积正则化进行处理,分别关注特征和空间聚合。此外,我们发现一些设计细节会极大地影响 Transformer 模块在 MVS 中的性能,包括归一化的三维位置编码、自适应注意力缩放和层归一化的位置。在 DTU、Tanks-and-Temples、BlendedMVS 和 ETH3D 上进行的综合实验验证了所提出方法的有效性。值得注意的是,MVSFormer++ 在具有挑战性的 DTU 和 Tanks-and-Temples 基准上实现了最先进的性能。
Jan, 2024
提出了一种名为 Multiscale Multiview Vision Transformers(MMViT)的 transformer 模型,它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图,并使用交叉注意力块将不同视图的信息融合在一起,从而实现对输入的复杂高维表示。在音频和图像分类任务上,通过实验证明了 MMViT 的有效性和达到了最先进的结果。
Apr, 2023
我们提出了一个简单的附加注意力模块,通过多阶段和跨尺度的相互作用,克服了 CNN 和 ViTs 在视觉任务中相互特征图之间的互动不足,从而显着提高了性能。
Aug, 2023
本文介绍一种名为 MVSTER 的新型多视角立体重建方法,该方法利用提出的极线 Transformer 以高效地学习 2D 和 3D 信息,采用级联结构以构建更精细的深度估计,通过熵正则化的最优传输算法来提高重建性能并显著减少运行时间。
Apr, 2022
本论文提出了一种名为 CostFormer 的高效 Transformer-based 成本聚合网络,其中 Residual Depth-Aware Cost Transformer(RDACT)用于通过沿深度和空间维度的自我注意机制聚合成本体上的长程特征,而 Residual Regression Transformer(RRT)则用于增强空间关注。
May, 2023
Multiscale Vision Transformers 是一种用于视频和图像识别的多尺度特征层级转换器,它可基于视觉信号的密集性建模逐渐展开通道容量和降低空间分辨率得到的多尺度特征金字塔,它能优于大规模的外部预训练及在计算和参数方面更为昂贵的传统视觉转换器。
Apr, 2021
本文提出了一种动态尺度特征提取网络 (CDSFNet),通过引导图像表面的法线曲率选择适当的补丁尺度,以学习判别特征,进而提高匹配成本的性能,该方法在复杂的室外场景中性能优于其他最先进的方法,并能够以更快的运行时间和更低的内存处理更高分辨率的输入。
Dec, 2021
本文介绍了一种多尺度多模态转换器(MMT),利用层次化表示学习,进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合,提高动作识别准确率。
Jan, 2024