Mar, 2024

VideoMamba:高效视频理解的状态空间模型

TL;DR提出了一种名为 VideoMamba 的基于 Mamba 的视频理解方法,克服了现有 3D 卷积神经网络和视频变换器的限制,通过线性复杂度运算实现了高效的长视频建模,同时展示了在视觉域上的可扩展性、在短期行动识别上的敏感性、在长期视频理解上的优越性以及在多模态背景下的兼容性。