Aug, 2023

MAiVAR-T:多模音频图片和视频动作识别器使用变形器

TL;DR提出了一种新模型 MAiVAR-T(Multimodal Audio-Image to Video Action Recognition Transformer),旨在融合音频和图像模态以提高多模态人体动作识别(MHAR)的效果,并在基准动作识别数据集上展示了卓越的性能。