基于 Transformer 的深度腹腔镜立体匹配

Jul, 2022

基于 Transformer 的深度腹腔镜立体匹配

Deep Laparoscopic Stereo Matching with Transformers

Xuelian Cheng, Yiran Zhong, Mehrtash Harandi, Tom Drummond, Zhiyong Wang...

TL;DR本文提出了一种新的混合深度立体匹配框架（HybridStereoNet），使用 Transformer 实现特征表示学习，并结合 CNN 用于代价汇聚，旨在提高立体视觉匹配精度和泛化能力。实验结果表明，与其他选项相比，本文方法收敛更快，准确率更高，能够在 Sceneflow，SCARED2019 和 dVPN 数据集上实现卓越的性能。

Abstract

The self-attention mechanism, successfully employed with the transformer structure is shown promise in many computer vision tasks including image recognition, and object detection. Despite the surge, the use of t

self-attention mechanism transformer stereo matching hybridstereonet cnn

发现论文，激发创造

基于混合 Transformer 和卷积神经网络的立体图像超分辨率注意力网络

提出了一种名为 HTCAN 的混合 Transformer 和 CNN 注意网络的方法，该方法使用基于 Transformer 的网络进行单幅图像增强和基于 CNN 的网络进行立体信息融合，最终在 NTIRE 2023 立体图像超分辨率挑战中获胜。

May, 2023

基于 Transformer 的多视角三维重建

本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Mar, 2021

具有 Transformer 的多视角立体

本文介绍了一种称为 MVSTR 的网络，利用 Transformer 提取拥有全局上下文和三维一致性的密集特征，对于 Multi-View Stereo（MVS）可靠的匹配至关重要。该网络解决了现有基于 CNN 的 MVS 方法视野有限的问题，提出了全局上下文 Transformer 模块和 3D-geometry Transformer 模块，并在实验中获得了最佳性能。

Dec, 2021

自监督视觉 Transformer 用于新颖目标的 3D 姿态估计

本研究评估和展示了使用对比学习来训练深度模板匹配的自监督 CNNs 和 Vision Transformers 之间的差异。结果表明，Vision Transformers 在匹配准确度方面优于 CNNs，并且对于某些情况，预训练的 Vision Transformers 并不需要微调。此外，我们还强调了比较这两种网络进行深度模板匹配时的优化和网络结构差异。

May, 2023

运用视觉基础模型在立体匹配中的优势

该研究是首次探索一种可行的方法，将 VFMs 适应于立体匹配，并通过将 ViTAS 与基于代价体积的立体匹配后端处理相结合，在 KITTI Stereo 2012 数据集上取得了最高排名，并以误差像素比例方面优于次优网络 StereoBase 约 7.9％，3 个像素误差容差。在各种情境的附加实验进一步证明了其与所有其他最先进方法相比的卓越通用性。我们相信这种新范式将为下一代立体匹配网络铺平道路。

Apr, 2024

TransMatcher：一种利用 Transformer 实现深度图像匹配的通用人员重识别方法

本文认为转换器由于缺乏图像之间的关注而不适用于图像匹配，因此提出了一种简化的解码器，称为 TransMatcher，它在一些流行的数据集中实现了最先进的表现以进行泛化人员再识别。

May, 2021

使用 Transformer 从序列到序列视角重新思考立体深度估计

本文介绍了一种名为 STereo TRansformer (STTR) 的方法，采用序列到序列的对应关系角度来进行立体深度估计，使用位置信息和注意力机制来进行密集像素匹配，克服了固定视差范围的限制，识别遮挡区域和提供置信度估计，并在合成和真实数据集上取得了良好的结果。

Nov, 2020

一种基于轻量级 Transformer 的异构图像的自监督匹配网络

提出一种新的关键点描述方法，通过自监督匹配网络获取稳健的特征描述子。设计了一种轻量级变换网络 LTFormer 生成深层特征描述子，并通过创新的三元组损失函数 LT Loss 进一步提高匹配性能，相比手工设计的本地特征描述子表现更好，即使数据有限，也与最先进的基于深度学习的方法相媲美。

Apr, 2024

轻量级内窥镜深度估计与 CNN-Transformer 编码器

我们在内窥镜成像中解决了准确性和鲁棒性方面的关键挑战，特别强调了实时推断和反射的影响。我们提出了一种创新的轻量级解决方案，通过整合卷积神经网络（CNN）和 Transformer 来预测多尺度深度图。我们的方法包括优化网络架构，引入多尺度膨胀卷积和多通道注意机制。我们还引入了一种统计置信度边界掩模，以最小化反射区域的影响。此外，我们提出了一种新颖的复杂度评估指标，考虑了网络参数大小、浮点操作和推断帧率。我们的研究旨在显著提高腹腔镜手术的效率和安全性。我们对我们提出的方法进行了全面评估，并与现有解决方案进行了比较。结果表明，我们的方法在保持轻量级的同时确保了深度估计的准确性。

Aug, 2023

无监督结构光变换

我们提出了一种基于鲁棒的 Transformer 的单目 SfM 方法，能够同时预测单目像素级深度、自车的平移和旋转、相机的焦距和主点，并且通过在 KITTI 和 DDAD 数据集上的实验，展示了如何适应不同的视觉 Transformer 并将其与当代基于 CNN 的方法进行比较。我们的研究表明，虽然基于 Transformer 的架构在运行时间效率上较低，但在面对自然的破坏、非目标攻击和有目标攻击时具有可比性的性能，并且更加稳健。

Dec, 2023