FM-ViT：面部反欺诈的灵活模态视觉变压器

May, 2023

FM-ViT：面部反欺诈的灵活模态视觉变压器

FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing

Ajian Liu, Zichang Tan, Zitong Yu, Chenxu Zhao, Jun Wan...

TL;DR本文提出了一种基于 Transformer 的框架，名为 Flexible Modal Vision Transformer (FM-ViT)，用于面部防欺骗，以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明，单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本，而且在较小的 FLOPs 和模型参数的情况下，也可以超越现有的单模态框架，并与多模态框架的性能相当。

Abstract

The availability of handy multi-modal (i.e., RGB-D) sensors has brought about a surge of face anti-spoofing research. However, the current multi-

multi-modal face anti-spoofing transformer-based framework modalities convnet-based model

发现论文，激发创造

MA-ViT：面部防欺诈的模态不敏感视觉变换器

本文提出了一种名为 Modality-Agnostic Vision Transformer (MA-ViT) 的单分支变压器框架和一个名为 Modality-Agnostic Transformer Block (MATB) 的模型，用于提高任意模态攻击的性能，并通过多模态数据来灵活测试任何给定的模态样本。

Apr, 2023

FMViT：多频混合视觉 Transformer

通过设计具有高频和低频特征的 FMViT 混合 Vision Transformer 模型，以及引入 gMLP、RLMHSA 和 CFB 机制来提高模型性能和减少计算开销，我们在各种视觉任务中成功提高了潜在的 TensorRT 和 CoreML 平台上的性能，相比现有的 CNNs，ViTs 和 CNNTransformer 混合架构，FMViT 在性能和计算开销方面取得了卓越的成果。

Nov, 2023

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Aug, 2021

可视化提示的灵活模态人脸反欺诈

最近，基于视觉变换器的多模态学习方法被提出来改善人脸反欺诈系统的鲁棒性。然而，由于各种成像传感器的缺失模态，从真实世界中收集的多模态人脸数据往往是不完整的。在本文中，我们提出了 “视觉提示灵活多模态人脸反欺诈” （VP-FAS）的方法，通过学习与模态相关的提示来适应冻结的预训练基础模型到下游的灵活多模态人脸反欺诈任务。我们的实验证明了 VP-FAS 框架在各种缺失模态情况下提高了性能，同时减轻了对重训练的要求。

Jul, 2023

卫星影像时序的多模态视觉转换器用于作物分类

通过使用来自不同卫星传感器获取的图像，已经证实在卫星图像时间序列（SITS）的作物分布图框架中，可以提高分类性能。现有的最新架构使用自注意机制处理时间维度和卷积处理空间维度。受到单模态 SITS 作物分布图中纯注意力架构的成功启发，我们引入了几种多模态多时序变换器架构。具体来说，我们研究了在时间空间视觉变换器（TSViT）中早期融合、交叉注意融合和同步类标记融合的有效性。实验结果表明，相较于具有卷积和自注意组件的最新架构，我们的架构显著改善了性能。

Jun, 2024

面部伪造检测的防伪感知自适应视觉 Transformer

借助先进的人脸操作技术，本研究提出了一种新的适应性伪造感知 Transformer (FA-ViT) 来检测 Deepfakes，通过冻结预训练的 Transformer 参数并引入特定组件 (LFI 和 GFA) 来适应与伪造相关的知识，并利用单域成对学习 (SDPL) 以提高性能。实验证明，FA-ViT 在跨数据集评估和跨操作情景中具有最先进的性能，提高了对未知扰动的鲁棒性。

Sep, 2023

对比特征遮罩开放词汇视觉变换器

CFM-ViT 是一种图像 - 文本预训练方法，具有对开放词汇目标检测进行图像和区域级别表示的同时学习能力。通过将掩码自编码器（MAE）目标与对比学习目标相结合，CFM-ViT 在联合图像 - 文本嵌入空间中进行重构，以比传统的 MAE 方法更好地学习区域级语义。此外，引入位置嵌入丢弃（PED）来解决图像 - 文本预训练和检测微调之间的尺度变化，从而提高检测性能并利用冻结的 ViT 骨干作为区域分类器，避免在检测微调过程中遗忘开放词汇知识。在 LVIS 开放词汇检测基准下，CFM-ViT 实现了 33.9 AP$r$ 的最新成果，超过最佳方法 7.6 个点，并在零样本检测转移方面取得更好的效果。最后，CFM-ViT 获得了强大的图像级表示，在 8 个零样本图像 - 文本检索基准中表现出了优于当前技术水平的成绩。

Sep, 2023

自适应 Transformers 用于稳健的少样本跨域人脸防伪

本文提出一种自适应视觉变换器 (ViT) 方法，利用集成适配器模块和特征转换层适应不同域的数据，从而实现跨域活体检测，并在多个基准数据集上取得了与现有方法相媲美的性能.

Mar, 2022

FLIP: 跨领域人脸反欺骗技术与语言引导

通过使用多模态预训练与自然语言语义对齐图像表示以改善面部反欺骗任务的泛化能力，进一步利用多模态对比学习策略弥合源域与目标域之间的差距，实现鲁棒的跨领域面部反欺骗。

Sep, 2023

PipeNet: 多模人脸反欺诈选择性模态融合网络的流水线

我们提出了一个名为 “PipeNet” 的多流卷积神经网络架构，针对跨族群、多模态连续数据下提高面部反欺骗泛化能力的挑战，利用 CASIA-SURF 最新的 CeFA 数据集进行训练和测试，使用有选择的模态流和有限帧投票等方法，达到了 CVPR2020 Chalearn 多模态交叉族群人脸反欺骗识别挑战的第三名，测试集上的平均分类错误率为 2.21，标准差为 1.26。

Apr, 2020