May, 2023

FM-ViT:面部反欺诈的灵活模态视觉变压器

TL;DR本文提出了一种基于 Transformer 的框架,名为 Flexible Modal Vision Transformer (FM-ViT),用于面部防欺骗,以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明,单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本,而且在较小的 FLOPs 和模型参数的情况下,也可以超越现有的单模态框架,并与多模态框架的性能相当。