VMRNN:整合 Vision Mamba 和 LSTM 实现高效准确的时空预测
通过优化顺序建模的扫描方向,并采用局部扫描策略和动态方法,本文提出了 Vision Mamba (ViM) 模型的改进方法,大幅度提高了图像表示的效果。
Mar, 2024
基于卷积神经网络和视觉变换器,提出了一种名为 Visual State Space Model (VMamba) 的新型体系结构,具有线性复杂度和全局感受野,并在图像分辨率增加时展现出更明显的优势。
Jan, 2024
在这篇综述性文章中,我们回顾了 Mamba 模型的起源和核心见解,并将 Mamba 应用于不同的计算机视觉任务。我们对各种图像、视频、点云、多模态等应用进行了分类和组织,为未来在这个快速发展的领域中提供了挑战和研究方向。
Apr, 2024
这篇研究论文介绍了一种基于视频视觉 Mamba 框架的医学视频目标分割任务方法 Vivim,通过设计的时间 Mamba 块,有效地将长期时空表示压缩为不同尺度的序列,相比现有的基于 Transformer 的方法,我们的模型在保持出色的分割结果的同时具有更好的速度表现。
Jan, 2024
Mamba 适用于具有长序列和自回归特性的任务,但不适用于图像分类;Mamba 在目标检测和分割任务中表现不如注意力模型,但显示出在长序列视觉任务中的潜力。
May, 2024
本研究通过广泛实验评估不同模型角色的 Mamba 对视频理解的潜力,探索其在视频理解领域的替代性,发现 Mamba 在仅视频和视频语言任务上展现出强大的潜力,并显示了有希望的效率 - 性能平衡,为未来的视频理解研究提供了宝贵的数据和见解。
Mar, 2024
在医学图像分割领域,CNN 和 Transformer 基于模型已经进行了深入研究。然而,CNN 对长距离依赖的建模能力有限,使得充分利用图像内的语义信息变得具有挑战性。另一方面,Transformer 的二次计算复杂性提出了挑战。最近,基于状态空间模型(SSMs)的方法,如 Mamba,被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能,而且保持了线性计算复杂性。受到 Mamba 架构的启发,我们提出了 Vision Mamba-UNetV2,引入了 Visual State Space(VSS)块来捕捉广泛的上下文信息,引入 Semantics and Detail Infusion(SDI)来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明,VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得
Mar, 2024
本文提出了一种新的通用计算机视觉基础模型 Vim,该模型采用双向状态空间模型对图像序列进行标记并压缩视觉表示,并在 ImageNet 分类、COCO 目标检测和 ADE20k 语义分割任务中取得了比 DeiT 等常见视觉转换器更高的性能,同时具有显著提高的计算和内存效率。
Jan, 2024
Medical image classification using Vision Mamba, a novel Conv-SSM module that combines convolutional layers with state space model, demonstrates promising results in detecting lesions, establishing a new baseline for the field.
Mar, 2024
深度学习方法在高分辨率遥感图像的语义分割中扮演重要角色,主要采用卷积神经网络(CNN)和视觉 Transformer(ViT)。然而,CNN 由于有限的感受野而受限,而 ViT 则面临二次复杂度的挑战。最近,Mamba 模型因具有线性复杂性和全局感受野而引发广泛关注。此类任务需要将图像序列化为与 Mamba 模型兼容的序列。许多研究工作探索了能够增强 Mamba 模型对图像理解的扫描策略,但是这些扫描策略的有效性仍不确定。我们通过对 LoveDA、ISPRS Potsdam 和 ISPRS Vaihingen 数据集进行广泛实验,全面地探究了主流扫描方向及其组合对遥感图像的语义分割的影响。结果表明,无论复杂性或所涉及的扫描方向数量如何,没有一种单一的扫描策略优于其他策略。对于高分辨率遥感图像的语义分割,一个简单的单一扫描方向已被证明足够。同时,我们推荐了未来研究的相关方向。
May, 2024