MA-ViT：面部防欺诈的模态不敏感视觉变换器

Apr, 2023

MA-ViT：面部防欺诈的模态不敏感视觉变换器

MA-ViT: Modality-Agnostic Vision Transformers for Face Anti-Spoofing

Ajian Liu, Yanyan Liang

TL;DR本文提出了一种名为 Modality-Agnostic Vision Transformer (MA-ViT) 的单分支变压器框架和一个名为 Modality-Agnostic Transformer Block (MATB) 的模型，用于提高任意模态攻击的性能，并通过多模态数据来灵活测试任何给定的模态样本。

Abstract

The existing multi-modal face anti-spoofing (FAS) frameworks are designed based on two strategies: halfway and late fusion. However, the former requires test modalities consistent with the training input, which seriously limits its deployment scenarios. And the latter is built on multi

multi-modal face anti-spoofing modality-agnostic vision transformer early fusion modal-disentangle attention cross-modal attention

发现论文，激发创造

FM-ViT：面部反欺诈的灵活模态视觉变压器

本文提出了一种基于 Transformer 的框架，名为 Flexible Modal Vision Transformer (FM-ViT)，用于面部防欺骗，以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明，单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本，而且在较小的 FLOPs 和模型参数的情况下，也可以超越现有的单模态框架，并与多模态框架的性能相当。

May, 2023

细粒度场景图像分类的模态不可知适配器

当处理细粒度场景图像分类任务时，大多数以往的研究在进行多模态特征融合时，都非常重视全局视觉特征。换句话说，模型是基于关于不同模态重要性的先前直觉有意设计的。本文提出了一种名为 MAA（模态无关适配器）的新的多模态特征融合方法，试图使模型能够自适应地学习不同情况下的不同模态的重要性，在模型架构中不提前给定设定。具体而言，我们消除了分布中的模态差异，然后使用模态无关 Transformer 编码器进行语义级特征融合。我们的实验证明，通过使用与以前方法相同的模态，MAA 在基准测试中取得了最先进的结果。此外，值得一提的是，使用 MAA 时可以轻松添加新的模态并进一步提升性能。

Jul, 2024

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Aug, 2021

基于视觉搜索与文本反馈的模态无关注意力融合

本研究采用自然语言反馈的图像检索方法，结合图像与文本特征实现细粒度视觉搜索并提出了 MAAF 模型，在 Fashion IQ 和 CSS 数据集中比现有方法表现更优，同时在 Fashion200k 数据集中也取得竞争性表现。此外，我们还提出了两个适用于丰富语言输入的新挑战基准，并通过实验证明该方法在不修改时优于强基线。最后我们在 Fashion IQ 上进行了深入细致的分析和可视化，揭示了单词避免 “关注” 他们所指图像区域的惊人现象

Jun, 2020

面部伪造检测的防伪感知自适应视觉 Transformer

借助先进的人脸操作技术，本研究提出了一种新的适应性伪造感知 Transformer (FA-ViT) 来检测 Deepfakes，通过冻结预训练的 Transformer 参数并引入特定组件 (LFI 和 GFA) 来适应与伪造相关的知识，并利用单域成对学习 (SDPL) 以提高性能。实验证明，FA-ViT 在跨数据集评估和跨操作情景中具有最先进的性能，提高了对未知扰动的鲁棒性。

Sep, 2023

多模态变换器实现无类别物体检测

本文提出使用多模态视觉变换器结合图像 - 文本对进行目标检测，证明了该方法可有效地提高跨领域和新颖目标的性能，并开发了一个高效的 MViT 体系结构，具有多尺度特征处理和多语言融合功能。

Nov, 2021

自适应 Transformers 用于稳健的少样本跨域人脸防伪

本文提出一种自适应视觉变换器 (ViT) 方法，利用集成适配器模块和特征转换层适应不同域的数据，从而实现跨域活体检测，并在多个基准数据集上取得了与现有方法相媲美的性能.

Mar, 2022

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

卫星影像时序的多模态视觉转换器用于作物分类

通过使用来自不同卫星传感器获取的图像，已经证实在卫星图像时间序列（SITS）的作物分布图框架中，可以提高分类性能。现有的最新架构使用自注意机制处理时间维度和卷积处理空间维度。受到单模态 SITS 作物分布图中纯注意力架构的成功启发，我们引入了几种多模态多时序变换器架构。具体来说，我们研究了在时间空间视觉变换器（TSViT）中早期融合、交叉注意融合和同步类标记融合的有效性。实验结果表明，相较于具有卷积和自注意组件的最新架构，我们的架构显著改善了性能。

Jun, 2024

MMViT: 多尺度多视角视觉 Transformer

提出了一种名为 Multiscale Multiview Vision Transformers（MMViT）的 transformer 模型，它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图，并使用交叉注意力块将不同视图的信息融合在一起，从而实现对输入的复杂高维表示。在音频和图像分类任务上，通过实验证明了 MMViT 的有效性和达到了最先进的结果。

Apr, 2023