Jun, 2024

VideoMambaPro:Mamba 视觉理解的重大进展

TL;DR通过对自我注意力和 Mamba 之间的差异进行理论分析,我们提出了 VideoMambaPro(VMP),通过向 VideoMamba 骨干结构添加掩码反向计算和元素残差连接来解决 Mamba 的两个限制,从而实现了卓越的视频动作识别性能,超过了 transformer 模型并获得了显著的优势。