VideoMamba：高效视频理解的状态空间模型

Mar, 2024

VideoMamba：高效视频理解的状态空间模型

VideoMamba: State Space Model for Efficient Video Understanding

Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang...

TL;DR提出了一种名为 VideoMamba 的基于 Mamba 的视频理解方法，克服了现有 3D 卷积神经网络和视频变换器的限制，通过线性复杂度运算实现了高效的长视频建模，同时展示了在视觉域上的可扩展性、在短期行动识别上的敏感性、在长期视频理解上的优越性以及在多模态背景下的兼容性。

Abstract

Addressing the dual challenges of local redundancy and global dependencies in video understanding, this work innovatively adapts the mamba to the video domain. The proposed →

video understanding mamba videomamba 3d convolution neural networks long-term modeling

发现论文，激发创造

视频曼巴组合套件：状态空间模型作为视频理解的多功能替代方案

本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力，探索其在视频理解领域的替代性，发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力，并显示了有希望的效率 - 性能平衡，为未来的视频理解研究提供了宝贵的数据和见解。

Mar, 2024

Vision Mamba: 模型、应用和挑战综述

在这篇综述性文章中，我们回顾了 Mamba 模型的起源和核心见解，并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织，为未来在这个快速发展的领域中提供了挑战和研究方向。

Apr, 2024

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

VideoMambaPro：Mamba 视觉理解的重大进展

通过对自我注意力和 Mamba 之间的差异进行理论分析，我们提出了 VideoMambaPro（VMP），通过向 VideoMamba 骨干结构添加掩码反向计算和元素残差连接来解决 Mamba 的两个限制，从而实现了卓越的视频动作识别性能，超过了 transformer 模型并获得了显著的优势。

Jun, 2024

Vivim: 一种用于医学视频对象分割的视频视觉蛇

这篇研究论文介绍了一种基于视频视觉 Mamba 框架的医学视频目标分割任务方法 Vivim，通过设计的时间 Mamba 块，有效地将长期时空表示压缩为不同尺度的序列，相比现有的基于 Transformer 的方法，我们的模型在保持出色的分割结果的同时具有更好的速度表现。

Jan, 2024

MAMBA4D: 高效的长序列点云视频理解及解耦空间 - 时间状态空间模型

基于最近提出的状态空间模型（SSMs）的新型 4D 点云视频理解骨干网络，通过解开原始 4D 序列中的空间和时间，使用新开发的 Intra-frame Spatial Mamba 和 Inter-frame Temporal Mamba 模块建立了点云视频内部和帧间的时空关联，并在人体动作识别和 4D 语义分割任务上证明了该方法的优越性。

May, 2024

RoboMamba: 高效机器人推理和操作的多模态状态空间模型

通过集成视觉编码器与 Mamba 模型，RoboMamba 同时提供了机器人推理和动作能力，并且在模型的微调和推断过程中保持了高效的计算速度。

Jun, 2024

LocalMamba：具有窗口选择性扫描的视觉状态空间模型

通过优化顺序建模的扫描方向，并采用局部扫描策略和动态方法，本文提出了 Vision Mamba (ViM) 模型的改进方法，大幅度提高了图像表示的效果。

Mar, 2024

nnMamba：使用状态空间模型进行 3D 生物医学图像分割、分类和地标检测

通过将 State Space Sequence Models (SSMs) 整合到卷积残差块中，nnMamba 架构能够提取局部特征并建模复杂的依赖关系，从而在医学图像分析的一系列挑战性任务中展现出卓越的性能。

Feb, 2024

Mamba24/8D: 通过状态空间模型增强点云的全局交互

通过借鉴最近的状态空间模型在长序列建模方面的潜力，我们引入了基于 SSM（状态空间模型）的架构 Mamba 到点云领域，并提出了 Mamba24/8D，它在线性复杂度下具有强大的全局建模能力。该架构在多个 3D 点云分割任务上取得了最先进的结果，并通过大量实验证实了其有效性。

Jun, 2024