VideoMamba:高效视频理解的状态空间模型
本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力,探索其在视频理解领域的替代性,发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力,并显示了有希望的效率 - 性能平衡,为未来的视频理解研究提供了宝贵的数据和见解。
Mar, 2024
在这篇综述性文章中,我们回顾了 Mamba 模型的起源和核心见解,并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织,为未来在这个快速发展的领域中提供了挑战和研究方向。
Apr, 2024
该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法,并介绍了它们在不同层次的视觉任务中的广泛应用,旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。
Apr, 2024
通过对自我注意力和 Mamba 之间的差异进行理论分析,我们提出了 VideoMambaPro(VMP),通过向 VideoMamba 骨干结构添加掩码反向计算和元素残差连接来解决 Mamba 的两个限制,从而实现了卓越的视频动作识别性能,超过了 transformer 模型并获得了显著的优势。
Jun, 2024
这篇研究论文介绍了一种基于视频视觉 Mamba 框架的医学视频目标分割任务方法 Vivim,通过设计的时间 Mamba 块,有效地将长期时空表示压缩为不同尺度的序列,相比现有的基于 Transformer 的方法,我们的模型在保持出色的分割结果的同时具有更好的速度表现。
Jan, 2024
基于最近提出的状态空间模型(SSMs)的新型 4D 点云视频理解骨干网络,通过解开原始 4D 序列中的空间和时间,使用新开发的 Intra-frame Spatial Mamba 和 Inter-frame Temporal Mamba 模块建立了点云视频内部和帧间的时空关联,并在人体动作识别和 4D 语义分割任务上证明了该方法的优越性。
May, 2024
通过集成视觉编码器与 Mamba 模型,RoboMamba 同时提供了机器人推理和动作能力,并且在模型的微调和推断过程中保持了高效的计算速度。
Jun, 2024
通过优化顺序建模的扫描方向,并采用局部扫描策略和动态方法,本文提出了 Vision Mamba (ViM) 模型的改进方法,大幅度提高了图像表示的效果。
Mar, 2024
通过将 State Space Sequence Models (SSMs) 整合到卷积残差块中,nnMamba 架构能够提取局部特征并建模复杂的依赖关系,从而在医学图像分析的一系列挑战性任务中展现出卓越的性能。
Feb, 2024
通过借鉴最近的状态空间模型在长序列建模方面的潜力,我们引入了基于 SSM(状态空间模型)的架构 Mamba 到点云领域,并提出了 Mamba24/8D,它在线性复杂度下具有强大的全局建模能力。该架构在多个 3D 点云分割任务上取得了最先进的结果,并通过大量实验证实了其有效性。
Jun, 2024