VideoMambaPro：Mamba 视觉理解的重大进展

Jun, 2024

VideoMambaPro：Mamba 视觉理解的重大进展

VideoMambaPro: A Leap Forward for Mamba in Video Understanding

Hui Lu, Albert Ali Salah, Ronald Poppe

TL;DR通过对自我注意力和 Mamba 之间的差异进行理论分析，我们提出了 VideoMambaPro（VMP），通过向 VideoMamba 骨干结构添加掩码反向计算和元素残差连接来解决 Mamba 的两个限制，从而实现了卓越的视频动作识别性能，超过了 transformer 模型并获得了显著的优势。

Abstract

video understanding requires the extraction of rich spatio-temporal representations, which transformer models achieve through self-attention. Unfortunately, →

video understanding self-attention mamba computer vision tasks videomambapro

发现论文，激发创造

VideoMamba：高效视频理解的状态空间模型

提出了一种名为 VideoMamba 的基于 Mamba 的视频理解方法，克服了现有 3D 卷积神经网络和视频变换器的限制，通过线性复杂度运算实现了高效的长视频建模，同时展示了在视觉域上的可扩展性、在短期行动识别上的敏感性、在长期视频理解上的优越性以及在多模态背景下的兼容性。

Mar, 2024

视频曼巴组合套件：状态空间模型作为视频理解的多功能替代方案

本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力，探索其在视频理解领域的替代性，发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力，并显示了有希望的效率 - 性能平衡，为未来的视频理解研究提供了宝贵的数据和见解。

Mar, 2024

关于视觉曼巴的调查

该研究综述了 Mamba 模型在计算机视觉领域的基本概念和优化方法，并介绍了它们在不同层次的视觉任务中的广泛应用，旨在引起学术界对当前挑战的关注并进一步应用 Mamba 模型于计算机视觉。

Apr, 2024

Vision Mamba: 模型、应用和挑战综述

在这篇综述性文章中，我们回顾了 Mamba 模型的起源和核心见解，并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织，为未来在这个快速发展的领域中提供了挑战和研究方向。

Apr, 2024

解读视觉中的莽巴：线性注意力视角

探索了 Mamba 模型与线性注意力 Transformer 之间的相似性和差异性，发现忘记门和块设计是 Mamba 模型成功的核心因素，并通过融合这两个关键设计提出了 Mamba-Like Linear Attention (MLLA) 模型，该模型在图像分类和高分辨率密集预测任务中优于多种视觉任务中的 Mamba 模型，同时具有可并行计算和快速推理速度。

May, 2024

基于 Vision Mamba 的混凝土、沥青和砖石表面自动裂缝分割

本文提出了基于 Vision Mamba (VMamba) 的框架，用于对混凝土、沥青和砖石表面进行高准确度、广义化和较低计算复杂度的裂缝分割，相较于基于 CNN 的模型，使用 VMamba 的编码器 - 解码器网络能获得高达 2.8% 的更高的 mDS 且与基于 Transformer 的模型表现相当，在处理高分辨率图像输入时，VMamba-based 编码器 - 解码器网络能够降低高达 90.6% 的浮点操作。

Jun, 2024

MambaOut：我们是否真的需要 Mamba 来进行视觉任务？

Mamba 适用于具有长序列和自回归特性的任务，但不适用于图像分类；Mamba 在目标检测和分割任务中表现不如注意力模型，但显示出在长序列视觉任务中的潜力。

May, 2024

Mamba：具有选择性状态空间的线性时间序列建模

基于 Transformer 架构的基础模型凭借其核心注意力模块，驱动着深度学习中大部分令人兴奋的应用。我们发现这种模型的一个关键弱点是其无法进行内容导向的推理，并对此进行了改进，通过让结构状态空间模型（SSMs）参数成为输入的函数来解决离散模态的弱点，该模型在长度可选的维度上选择性地传播或遗忘信息，并且通过在递归模式下设计一种硬件感知并行算法，将这些选择性 SSMs 集成到简化的端到端神经网络架构中。该模型（Mamba）具有快速推断速度（比 Transformers 快 5 倍）和序列长度的线性扩展，并在实际数据上对长达百万长度的序列显示出改进。作为一种基于通用序列模型的支持，Mamba 在语言、音频和基因组等多个模态上实现了最先进的性能。在语言建模中，我们的 Mamba-3B 模型在预训练和下游评估中均优于同样大小的 Transformers，与其两倍大小的模型性能相当。

Dec, 2023

Matten: 基于 Mamba-Attention 的视频生成

本文介绍了一种名为 Matten 的先进的潜在扩散模型，采用 Mamba-Attention 架构用于视频生成。Matten 以最小的计算成本，通过空间 - 时间注意力对本地视频内容建模，并通过双向 Mamba 对全局视频内容进行建模。我们的综合实验评估表明，Matten 在基准性能上与当前基于 Transformer 和 GAN 的模型竞争力强，取得了优秀的分数和高效性。此外，我们观察到我们设计模型的复杂性与视频质量提高之间存在直接正相关关系，表明 Matten 具有出色的可扩展性。

May, 2024

Vivim: 一种用于医学视频对象分割的视频视觉蛇

这篇研究论文介绍了一种基于视频视觉 Mamba 框架的医学视频目标分割任务方法 Vivim，通过设计的时间 Mamba 块，有效地将长期时空表示压缩为不同尺度的序列，相比现有的基于 Transformer 的方法，我们的模型在保持出色的分割结果的同时具有更好的速度表现。

Jan, 2024