运用视觉基础模型在立体匹配中的优势

Apr, 2024

运用视觉基础模型在立体匹配中的优势

Playing to Vision Foundation Model's Strengths in Stereo Matching

Chuang-Wei Liu, Qijun Chen, Rui Fan

TL;DR该研究是首次探索一种可行的方法，将 VFMs 适应于立体匹配，并通过将 ViTAS 与基于代价体积的立体匹配后端处理相结合，在 KITTI Stereo 2012 数据集上取得了最高排名，并以误差像素比例方面优于次优网络 StereoBase 约 7.9％，3 个像素误差容差。在各种情境的附加实验进一步证明了其与所有其他最先进方法相比的卓越通用性。我们相信这种新范式将为下一代立体匹配网络铺平道路。

Abstract

stereo matching has become a key technique for 3D environment perception in intelligent vehicles. For a considerable time, convolutional neural networks (CNNs) have remained the mainstream choice for feature extraction in this domain. Nonetheless, there is a growing consensus that the

stereo matching vision transformers vfms vitas geometric vision tasks

发现论文，激发创造

FMViT：多频混合视觉 Transformer

通过设计具有高频和低频特征的 FMViT 混合 Vision Transformer 模型，以及引入 gMLP、RLMHSA 和 CFB 机制来提高模型性能和减少计算开销，我们在各种视觉任务中成功提高了潜在的 TensorRT 和 CoreML 平台上的性能，相比现有的 CNNs，ViTs 和 CNNTransformer 混合架构，FMViT 在性能和计算开销方面取得了卓越的成果。

Nov, 2023

具有 Transformer 的多视角立体

本文介绍了一种称为 MVSTR 的网络，利用 Transformer 提取拥有全局上下文和三维一致性的密集特征，对于 Multi-View Stereo（MVS）可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题，提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块，并在实验中获得了最佳性能。

Dec, 2021

MonoViT：基于视觉 Transformer 的自监督单目深度估计

提出了一种新的基于 Vision Transformers（ViTs）和自监督单眼深度估计的框架 MonoViT，通过结合普通卷积和 Transformer 模型，能够在局部和全局推理，可以更准确地预测深度，达到了更高水平的性能，证明比其他数据集具有更好的泛化能力。

Aug, 2022

基于视觉变换器的面部局部识别

本文提出了一种全新的脸部识别方法 —— 使用 Vision Transformer 作为架构进行培训，称为 fViT，并通过简单的网络预测面部标记点的坐标再进行后续处理，最终达到了在几个面部识别基准上的最佳准确度。

Nov, 2022

特征融合视觉 Transformer 用于细粒度视觉分类

本文提出了一个基于 Transformer 的框架，通过聚合特征来处理细粒度视觉分类任务，其中引入了一种新的令牌选择模块（MAWS）来引导网络有效地选择具有判别性的令牌，从而实现了最先进的性能。

Jul, 2021

FM-ViT：面部反欺诈的灵活模态视觉变压器

本文提出了一种基于 Transformer 的框架，名为 Flexible Modal Vision Transformer (FM-ViT)，用于面部防欺骗，以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明，单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本，而且在较小的 FLOPs 和模型参数的情况下，也可以超越现有的单模态框架，并与多模态框架的性能相当。

May, 2023

VMamba：视觉状态空间模型

基于卷积神经网络和视觉变换器，提出了一种名为 Visual State Space Model (VMamba) 的新型体系结构，具有线性复杂度和全局感受野，并在图像分辨率增加时展现出更明显的优势。

Jan, 2024

RangeViT：用于自动驾驶 3D 语义分割的视觉 Transformer

本文应用 Vision Transformers 和卷积解码器改进了基于投影的 3D 语义分割方法以获得更好的结果，并在 nuScenes 和 SemanticKITTI 数据集上超过了现有的投影方法。

Jan, 2023

TransMVSNet：基于 Transformer 的全局上下文感知多视角立体网络

本研究提出了 TransMVSNet，它是基于多视图立体视觉（MVS）中的特征匹配的探索而来的，利用 Feature Matching Transformer 实现自内、交叉注意力聚合图像内外的长程上下文信息来完成 MVS 任务，并借助 Adaptive Receptive Field 模块和 Pair-wise feature correlation 量化特征的相似性和优化任务效果。实验结果表明，该方法在多个基准数据集上取得了最优的性能。

Nov, 2021

从 2D 视觉 Transformer 开始解决 3D 视觉任务？

本文提出一种通用的视觉转换器（Visual Transformer），名为 Simple3D-Former，可用于高效地进行 2D 和 3D 任务的训练和预测，并且相比高度定制的 3D 特有设计实现了惊人的鲁棒性，同时利用大规模现实 2D 图像的预训练权重可免费提高 3D 任务的性能.

Sep, 2022