BriefGPT.xyz
Ask
alpha
关键词
multi-modal video transformer (mm-vit)
搜索结果 - 1
MM-ViT:用于压缩视频动作识别的多模态视频 Transformer
该论文提出了一种基于多模态视频变换器 (MM-ViT) 的纯 Transformer 方法,其能够从压缩视频领域的多个可用模态中获取信息并实现动作识别,采用多个可扩展模型变量来处理来自多个模态的大量空间和时间令牌,进一步探索其丰富的模态间互
→
PDF
3 years ago
Prev
Next