MAiVAR-T：多模音频图片和视频动作识别器使用变形器

Aug, 2023

MAiVAR-T：多模音频图片和视频动作识别器使用变形器

MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using Transformers

Muhammad Bilal Shaikh, Douglas Chai, Syed Mohammed Shamsul Islam, Naveed Akhtar

TL;DR提出了一种新模型 MAiVAR-T（Multimodal Audio-Image to Video Action Recognition Transformer），旨在融合音频和图像模态以提高多模态人体动作识别（MHAR）的效果，并在基准动作识别数据集上展示了卓越的性能。

Abstract

In line with the human capacity to perceive the world by simultaneously processing and integrating high-dimensional inputs from multiple modalities like vision and audio, we propose a novel model, maivar-t (Multimodal Audio-Image to Video Action Recognition Transformer). This model emp

multimodal human action recognition maivar-t audio-image fusion benchmark action recognition dataset contextual richness

发现论文，激发创造

MM-ViT：用于压缩视频动作识别的多模态视频 Transformer

该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法，其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别，采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌，进一步探索其丰富的模态间互动和效果，并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试（UCF-101，Something-Something-v2，Kinetics-600）上表现出超越现有技术的性能，既高效又精确。

Aug, 2021

从 CNN 到 Transformers 的多模态人体动作识别：一项调查

多模态人体动作识别的综述研究，重点关注多模态数据融合设计方面的经典和新兴技术，分析了卷积神经网络和 Transformer 建模方法在该问题上的流行趋势和更高效的模型设计选择，并讨论了实践模型训练中的有前景的架构和融合设计选择，以及多模态数据集的规模和评估视角，提出了多模态人体动作识别的挑战与未来发展方向。

May, 2024

高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

提出了一种名为 AVT 的新颖的音视频识别方法，利用视频 Transformer 在时空上的表示来提高动作识别的准确性，并通过音视频瓶颈 Transformer 减少跨模态复杂度，融合自监督目标，而进一步引入一个屏蔽音频片段损失，以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。

Jan, 2024

野外情感维度识别的联合多模态变压器

通过使用多模态 Transformer 架构，全面利用视频中视觉和听觉模态之间的交互和内部依赖关系，以识别音频视觉表情和声音模式，该模型在 Affwild2 数据集上表现出优越性能。

Mar, 2024

多分辨率音视频特征融合用于时序动作定位

多分辨率音视频特征融合（MRAV-FF）是一种创新的方法，通过层级化门控交叉注意机制将不同时间分辨率的音视频数据合并，以提高时域动作定位任务的性能。

Oct, 2023

高效多尺度多模态瓶颈变压器用于音视频分类

本文介绍了一种多尺度多模态转换器（MMT），利用层次化表示学习，进一步使用音频 - 视频对比损失和同模态对比损失来实现多模态融合，提高动作识别准确率。

Jan, 2024

MAR：用于高效行为识别的遮蔽自编码器

该研究提出 Masked Action Recognition (MAR) 方法来实现视频的行为识别，该方法可减少 ViT 的计算成本，并通过蒙版视频建模和桥接分类器来辅助实现。

Jul, 2022

MA-AVT：用于参数高效音频 - 视觉变换器的模态对齐

该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码阶段引入块对齐性学习以对齐粗粒、细粒的层次特征，并引入鲁棒的判别前景挖掘机制以抑制每种模态中的背景特征。通过在 benchmark AVE、VGGSound 和 CREMA-D 数据集上进行的大量实验，该方法在性能上取得了显著的改进。

Jun, 2024

基于风格转移的语音和视觉场景理解，用于机器人从视频中获取操作序列

本文介绍一种从指令视频中生成机器人动作序列的方法，用于实现人机协作，并展示了该方法在各种烹饪动作中的成功率达到 32%。

Jun, 2023

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020