MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

Aug, 2021

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition

Jiawei Chen, Chiu Man Ho

TL;DR该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Abstract

This paper presents a pure transformer-based approach, dubbed the Multi-Modal Video Transformer (MM-ViT), for video action recognition. Different from other schemes which solely utilize the decoded RGB frames, MM-ViT operates exclusively in the →

multi-modal video transformer (mm-vit)action recognition compressed video self-attention cross-modal attention

发现论文，激发创造

FM-ViT：面部反欺诈的灵活模态视觉变压器

本文提出了一种基于 Transformer 的框架，名为 Flexible Modal Vision Transformer (FM-ViT)，用于面部防欺骗，以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明，单个基于 FM-ViT 的模型不仅可以灵活评估不同的模态样本，而且在较小的 FLOPs 和模型参数的情况下，也可以超越现有的单模态框架，并与多模态框架的性能相当。

May, 2023

MMViT: 多尺度多视角视觉 Transformer

提出了一种名为 Multiscale Multiview Vision Transformers（MMViT）的 transformer 模型，它引入了多尺度特征地图和多视角编码。该模型可以在不同的分辨率下处理输入的多个视图，并使用交叉注意力块将不同视图的信息融合在一起，从而实现对输入的复杂高维表示。在音频和图像分类任务上，通过实验证明了 MMViT 的有效性和达到了最先进的结果。

Apr, 2023

高效多尺度多模态瓶颈变压器用于音视频分类

本文介绍了一种多尺度多模态转换器（MMT），利用层次化表示学习，进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合，提高动作识别准确率。

Jan, 2024

MAiVAR-T：多模音频图片和视频动作识别器使用变形器

提出了一种新模型 MAiVAR-T（Multimodal Audio-Image to Video Action Recognition Transformer），旨在融合音频和图像模态以提高多模态人体动作识别（MHAR）的效果，并在基准动作识别数据集上展示了卓越的性能。

Aug, 2023

MeMViT: 基于记忆增强的多尺度视觉 Transformer，用于有效的长期视频识别

本文提出了一种在线处理视频并在迭代过程中缓存 “记忆” 的新策略，基于此构建了一个具有 30 倍增强的时间支持的存储器增强多尺度视觉变压器 ——MeMViT，可以比传统方法少使用 99.5％的计算资源，且在各种情况下实现了状态下最先进的识别准确率，尤其是在行动预测数据集方面。

Jan, 2022

MA-ViT：面部防欺诈的模态不敏感视觉变换器

本文提出了一种名为 Modality-Agnostic Vision Transformer (MA-ViT) 的单分支变压器框架和一个名为 Modality-Agnostic Transformer Block (MATB) 的模型，用于提高任意模态攻击的性能，并通过多模态数据来灵活测试任何给定的模态样本。

Apr, 2023

多模态 Transformer 网络用于动作检测

本文提出了一种新的多模态转换器网络，用于检测未修剪视频中的动作，利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性，并提出一种算法来纠正相机运动引起的动态变形，该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法，在我们的新教育活动数据集上进行了比较实验，该数据集包括从小学捕捉的大量具有挑战性的课堂视频。

May, 2023

高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

提出了一种名为 AVT 的新颖的音视频识别方法，利用视频 Transformer 在时空上的表示来提高动作识别的准确性，并通过音视频瓶颈 Transformer 减少跨模态复杂度，融合自监督目标，而进一步引入一个屏蔽音频片段损失，以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。

Jan, 2024

多模态变换器实现无类别物体检测

本文提出使用多模态视觉变换器结合图像 - 文本对进行目标检测，证明了该方法可有效地提高跨领域和新颖目标的性能，并开发了一个高效的 MViT 体系结构，具有多尺度特征处理和多语言融合功能。

Nov, 2021

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020