Aug, 2021

MM-ViT:用于压缩视频动作识别的多模态视频 Transformer

TL;DR该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法,其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别,采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌,进一步探索其丰富的模态间互动和效果,并比较了三种不同的跨模态注意机制。该方法在三个公共的动作识别基准测试(UCF-101,Something-Something-v2,Kinetics-600)上表现出超越现有技术的性能,既高效又精确。