VMRNN：整合 Vision Mamba 和 LSTM 实现高效准确的时空预测

Mar, 2024

VMRNN：整合 Vision Mamba 和 LSTM 实现高效准确的时空预测

VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal Forecasting

Yujin Tang, Peijie Dong, Zhenheng Tang, Xiaowen Chu, Junwei Liang

TL;DR本文提出了一种以 VMRNN 单元为核心的网络结构，将 CNNs 和 ViTs 与 RNNs 相结合，以有效地处理时空预测任务，并通过广泛的评估表明该方法在多种任务上取得了竞争性的结果，同时保持了较小的模型尺寸。

Abstract

Combining cnns or vits, with RNNs for spatiotemporal forecasting, has yielded unparalleled results in predicting temporal and spatial dyna

cnns vits spatiotemporal forecasting vmrnn cell lstm

发现论文，激发创造

LocalMamba：具有窗口选择性扫描的视觉状态空间模型

通过优化顺序建模的扫描方向，并采用局部扫描策略和动态方法，本文提出了 Vision Mamba (ViM) 模型的改进方法，大幅度提高了图像表示的效果。

Mar, 2024

VMamba：视觉状态空间模型

基于卷积神经网络和视觉变换器，提出了一种名为 Visual State Space Model (VMamba) 的新型体系结构，具有线性复杂度和全局感受野，并在图像分辨率增加时展现出更明显的优势。

Jan, 2024

Vision Mamba: 模型、应用和挑战综述

在这篇综述性文章中，我们回顾了 Mamba 模型的起源和核心见解，并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织，为未来在这个快速发展的领域中提供了挑战和研究方向。

Apr, 2024

Vivim: 一种用于医学视频对象分割的视频视觉蛇

这篇研究论文介绍了一种基于视频视觉 Mamba 框架的医学视频目标分割任务方法 Vivim，通过设计的时间 Mamba 块，有效地将长期时空表示压缩为不同尺度的序列，相比现有的基于 Transformer 的方法，我们的模型在保持出色的分割结果的同时具有更好的速度表现。

Jan, 2024

MambaOut：我们是否真的需要 Mamba 来进行视觉任务？

Mamba 适用于具有长序列和自回归特性的任务，但不适用于图像分类；Mamba 在目标检测和分割任务中表现不如注意力模型，但显示出在长序列视觉任务中的潜力。

May, 2024

视频曼巴组合套件：状态空间模型作为视频理解的多功能替代方案

本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力，探索其在视频理解领域的替代性，发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力，并显示了有希望的效率 - 性能平衡，为未来的视频理解研究提供了宝贵的数据和见解。

Mar, 2024

VM-UNET-V2 在医学图像分割中重新思考 Vision Mamba UNet

在医学图像分割领域，CNN 和 Transformer 基于模型已经进行了深入研究。然而，CNN 对长距离依赖的建模能力有限，使得充分利用图像内的语义信息变得具有挑战性。另一方面，Transformer 的二次计算复杂性提出了挑战。最近，基于状态空间模型（SSMs）的方法，如 Mamba，被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能，而且保持了线性计算复杂性。受到 Mamba 架构的启发，我们提出了 Vision Mamba-UNetV2，引入了 Visual State Space（VSS）块来捕捉广泛的上下文信息，引入 Semantics and Detail Infusion（SDI）来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明，VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得

Mar, 2024

视觉曼巴：具有双向状态空间模型的高效视觉表示学习

本文提出了一种新的通用计算机视觉基础模型 Vim，该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示，并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能，同时具有显著提高的计算和内存效率。

Jan, 2024

MedMamba：针对医学图像分类的视觉蛇

Medical image classification using Vision Mamba, a novel Conv-SSM module that combines convolutional layers with state space model, demonstrates promising results in detecting lesions, establishing a new baseline for the field.

Mar, 2024

视觉曼巴在遥感影像语义分割中的扫描策略重新思考：实验研究

深度学习方法在高分辨率遥感图像的语义分割中扮演重要角色，主要采用卷积神经网络（CNN）和视觉 Transformer（ViT）。然而，CNN 由于有限的感受野而受限，而 ViT 则面临二次复杂度的挑战。最近，Mamba 模型因具有线性复杂性和全局感受野而引发广泛关注。此类任务需要将图像序列化为与 Mamba 模型兼容的序列。许多研究工作探索了能够增强 Mamba 模型对图像理解的扫描策略，但是这些扫描策略的有效性仍不确定。我们通过对 LoveDA、ISPRS Potsdam 和 ISPRS Vaihingen 数据集进行广泛实验，全面地探究了主流扫描方向及其组合对遥感图像的语义分割的影响。结果表明，无论复杂性或所涉及的扫描方向数量如何，没有一种单一的扫描策略优于其他策略。对于高分辨率遥感图像的语义分割，一个简单的单一扫描方向已被证明足够。同时，我们推荐了未来研究的相关方向。

May, 2024