ECCVApr, 2022

使用状态空间视频模型进行长视频片段分类

TL;DR提出了一种结合自我关注和 S4 层优点的高效长范围视频模型,具有复杂的长范围时空依赖性,比传统的全自注意模型快 2.63 倍,占用 8 倍更少的 GPU 内存,并在视频分类等任务中取得了最先进的结果。