基于视觉变换器的面部局部识别
本文研究使用纯 Transformer 模型实现复杂视觉任务中的目标检测,发现 Vision Transformer 作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果,而且能够保持更高的图像分辨率。
Dec, 2020
本研究利用 Vision Transformer (ViT) 架构并结合 DINO 框架,对面部反欺诈任务进行了 Fine-tuning,与传统的 CNN 模型 EfficientNet b2 进行了性能比较。研究结果显示,ViT 模型在准确性和对不同欺诈方法的抵抗性方面优于 CNN 模型,进一步推动了生物识别安全领域的重要进展。
Jun, 2024
本文介绍了一个基于 Vision Transformer 和 Part Selection Module 的模型 ——TransFG,可以有效提取重要的图像特征,应用于 Fine-grained visual classification,实现了最先进的表现。
Mar, 2021
本文提出了一种使用卷积视觉 Transformer 及卷积神经网络架构用于检测 Deepfakes 的方法,并在 DeepFake Detection Challenge Dataset 上进行了实验,取得了 91.5%的准确度、0.91 的 AUC 值和 0.32 的损失值。
Feb, 2021
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
本文提出了一个基于 Transformer 的框架,通过聚合特征来处理细粒度视觉分类任务,其中引入了一种新的令牌选择模块(MAWS)来引导网络有效地选择具有判别性的令牌,从而实现了最先进的性能。
Jul, 2021
提出了一种用于减少 Vision Transformers 计算复杂度的简单方法,通过选择和处理最有信息的小片段,我们将二维人体姿态估计网络的结果作为指导进行小片段的选择,实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效,而且性能略微下降。
Jun, 2023
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
本文提出了一种名为 TransFace 的优越 FR 模型,其中使用了名为 DPAP 的面级数据增强策略和名为 EHSM 的困难样本挖掘策略,实验证明了其优异性能。
Aug, 2023