IFViT: 基于 Vision Transformer 的指纹匹配解释性定长表示

Apr, 2024

IFViT: 基于 Vision Transformer 的指纹匹配解释性定长表示

IFViT: Interpretable Fixed-Length Representation for Fingerprint Matching via Vision Transformer

Yuhang Qiu, Honghui Chen, Xingbo Dong, Zheng Lin, Iman Yi Liao...

TL;DR通过视觉转换器构建的可解释指纹匹配网络 IFViT，利用密集特征点在像素级别上进行准确匹配和构造固定长度表示，提供了具有解释性的像素级特征点对应，并在深度固定长度表示的指纹匹配中显著促进了可解释性。

Abstract

Determining dense feature points on fingerprints used in constructing deep fixed-length representations for accurate matching, particularly at the pixel level, is of significant interest. To explore the interpret

dense feature points fingerprint matching interpretable fingerprint matching network vision transformer fixed-length representations

发现论文，激发创造

ViT 统一：联合指纹识别和呈现攻击检测

本研究提出使用 Vision Transformer（ViT）模型的统一系统架构，实现虚假检测和匹配，并取得了与最先进（SOTA）的顺序系统相当的 98.87% 的平均集成匹配（IM）准确率，但参数只有后者的约 50％，延迟只有后者的约 58％。该方法适用于安全指纹识别等场景。

May, 2023

ViFiT：从 IMU 和 Wi-Fi 精确时间测量重建视觉轨迹

提出了一种基于 Transformer 的模型 ViFiT，从手机数据（IMU 和 Fine Time Measurements）重构视觉边界框轨迹，并通过一种新颖的评估框架（最小所需帧和最小所需帧比率）证明其在跨模态重构中的优越性能和较高的帧率降低率。

Oct, 2023

运用视觉基础模型在立体匹配中的优势

该研究是首次探索一种可行的方法，将 VFMs 适应于立体匹配，并通过将 ViTAS 与基于代价体积的立体匹配后端处理相结合，在 KITTI Stereo 2012 数据集上取得了最高排名，并以误差像素比例方面优于次优网络 StereoBase 约 7.9％，3 个像素误差容差。在各种情境的附加实验进一步证明了其与所有其他最先进方法相比的卓越通用性。我们相信这种新范式将为下一代立体匹配网络铺平道路。

Apr, 2024

CF-ViT: 一种通用的视觉 Transformer 粗细递进方法

本文提出了一种粗到细的 CF-ViT，实现视觉图像的快速识别，具有较高的计算效率，可以支持小长度的词条序列，大大减少了计算成本。

Mar, 2022

FMViT：多频混合视觉 Transformer

通过设计具有高频和低频特征的 FMViT 混合 Vision Transformer 模型，以及引入 gMLP、RLMHSA 和 CFB 机制来提高模型性能和减少计算开销，我们在各种视觉任务中成功提高了潜在的 TensorRT 和 CoreML 平台上的性能，相比现有的 CNNs，ViTs 和 CNNTransformer 混合架构，FMViT 在性能和计算开销方面取得了卓越的成果。

Nov, 2023

LiFT: 一个令人惊讶的简单轻量级特征转换用于稠密 ViT 描述符

我们提出了一种简单的自监督方法来提高 ViT 特征在密集下游任务中的性能，通过应用 LiFT 后处理网络，可以提升任何经过预训练的 ViT 主干的特征。LiFT 在自监督目标下训练快速简便，并且在最小额外推理成本下增加了 ViT 特征的密度。此外，我们演示了将 LiFT 与 ViTDet 用于 COCO 检测和分割的方法。尽管 LiFT 方法简单，但我们发现它并不仅仅是学习了一种更复杂的双线性插值版本。相反，我们的 LiFT 训练方案导致了几个有益于密集下游任务中 ViT 特征的理想性质，包括更大的尺度不变性和更好的对象边界映射。通过简单地训练 LiFT 几个 epochs，我们展示了在关键点对应、检测、分割和物体发现任务上改进的性能。总体而言，LiFT 提供了一种以较小的计算代价实现更密集特征阵列优势的简单方法。了解更多细节，请参考我们的项目页面。

Mar, 2024

利用深层 ViT 特征作为密集的视觉描述符

本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符，提出了基于无监督 DINO-ViT 模型提取特征的简单方法，可用于各种领域的相关应用，包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果，并且较之前的无监督方法有了很大的提高。

Dec, 2021

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021