Jul, 2023

视频 FocalNets:时空 Focal 调制用于视频动作识别

TL;DR本文提出了基于方向聚焦的架构 Video-FocalNet,它是一种有效且高效的视频识别体系结构,用于同时对本地和全局上下文进行建模,相较于现今热门的视频识别模型,该识别模型在三大数据集上表现优异,具有更低的计算成本。