RS3Mamba: 对遥感图像语义分割的视觉状态空间模型
RSMamba 是基于状态空间模型(SSM)和 Mamba 的高效、硬件感知设计的一种远程感知图像分类的新型架构,它通过动态多路径激活机制增强了模型对非因果数据的建模能力,并在多个远程感知图像分类数据集上展现出卓越的性能,具有成为未来视觉基础模型骨干的潜力。
Mar, 2024
该研究提出了一种针对高分辨率遥感图像的语义分割框架,名为 Samba,其采用编码器 - 解码器架构,使用 Samba 块作为编码器来高效地提取多层语义信息,以及 UperNet 作为解码器。在 LoveDA 数据集上的评估结果表明,Samba 在 LoveDA 上取得了前所未有的性能,为 Mamba 技术在这一特定应用中的性能设定了新的基准。
Apr, 2024
在医学图像分割领域,CNN 和 Transformer 基于模型已经进行了深入研究。然而,CNN 对长距离依赖的建模能力有限,使得充分利用图像内的语义信息变得具有挑战性。另一方面,Transformer 的二次计算复杂性提出了挑战。最近,基于状态空间模型(SSMs)的方法,如 Mamba,被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能,而且保持了线性计算复杂性。受到 Mamba 架构的启发,我们提出了 Vision Mamba-UNetV2,引入了 Visual State Space(VSS)块来捕捉广泛的上下文信息,引入 Semantics and Detail Infusion(SDI)来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明,VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得
Mar, 2024
远程感知图像中的密集预测任务存在挑战,本研究提出了一种基于远程感知 Mamba(RSM)的模型,利用线性复杂度对全局特征进行建模,以有效处理大尺寸的高空间分辨率远程感知图像,并通过全局建模和多方向扫描提取大尺度空间特征等,实验结果表明该方法在 VHR 远程感知的密集预测任务上取得了最先进的性能。
Apr, 2024
通过将 State Space Sequence Models (SSMs) 整合到卷积残差块中,nnMamba 架构能够提取局部特征并建模复杂的依赖关系,从而在医学图像分析的一系列挑战性任务中展现出卓越的性能。
Feb, 2024
远程感知图像变化字幕化通过识别多时相遥感图像中的表面变化并用自然语言描述它们,当前的方法通常依赖于编码器 - 解码器结构,并侧重于设计一个复杂的 “颈部” 来处理骨干提取的双时相特征。最近,状态空间模型(SSM),特别是 Mamba,在许多领域展示了出色的性能,这归功于其高效的特征选择建模能力。然而,它们在 RSICC 任务中的潜力尚未被探索。本文将 Mamba 引入到 RSICC 中,并提出了一种名为 RSCaMa(远程感知变化字幕化 Mamba)的新方法。具体而言,我们利用孪生骨干提取双时相特征,然后通过由空间差异引导的 SSM(SD-SSM)和时间逐步旅行的 SSM(TT-SSM)组成的多 CaMa 层进行处理。SD-SSM 利用差异特征来增强变化感知能力,而 TT-SSM 以记号级跨扫描方式促进双时相交互作用。实验证明了 CaMa 层的有效性,并展示出 RSCaMa 的卓越性能以及 Mamba 在 RSICC 任务中的潜力。此外,我们系统地比较了三种语言解码器的效果,包括 Mamba、具有因果关注机制的 GPT 风格解码器以及具有交叉关注机制的 Transformer 解码器。这为未来的 RSICC 研究提供了有价值的见解。代码将可在此链接上找到。
Apr, 2024
本研究提出了一种基于状态空间模型的医学图像分割模型 Vision Mamba UNet (VM-UNet),通过引入 Visual State Space (VSS) 块以捕获广泛的上下文信息,并构建了一个不对称的编码器 - 解码器结构。实验结果表明,VM-UNet 在医学图像分割任务中具有竞争力。此外,该模型是首个基于纯 SSM 模型构建的医学图像分割模型,旨在为未来开发更高效、更有效的 SSM 分割系统奠定基础并提供有价值的见解。
Feb, 2024
提出了一种基于 3D-Spectral-Spatial Mamba 框架的新方法,用于全局光谱 - 空间关系建模及高效的高光谱影像分类,实验结果表明该方法在 HSI 分类任务中优于现有方法。
May, 2024
SegMamba 是一种新颖的 3D 医学图像分割模型,通过有效地捕捉各个尺度上的全体积特征的远程依赖性,从状态空间模型的角度在全体积特征建模方面胜过基于 Transformer 的方法,保持出色的处理速度,即使是具有 {$64 imes 64 imes 64$} 分辨率的体积特征。在 BraTS2023 数据集上的综合实验证明了 SegMamba 的有效性和高效性。
Jan, 2024
深度学习方法在高分辨率遥感图像的语义分割中扮演重要角色,主要采用卷积神经网络(CNN)和视觉 Transformer(ViT)。然而,CNN 由于有限的感受野而受限,而 ViT 则面临二次复杂度的挑战。最近,Mamba 模型因具有线性复杂性和全局感受野而引发广泛关注。此类任务需要将图像序列化为与 Mamba 模型兼容的序列。许多研究工作探索了能够增强 Mamba 模型对图像理解的扫描策略,但是这些扫描策略的有效性仍不确定。我们通过对 LoveDA、ISPRS Potsdam 和 ISPRS Vaihingen 数据集进行广泛实验,全面地探究了主流扫描方向及其组合对遥感图像的语义分割的影响。结果表明,无论复杂性或所涉及的扫描方向数量如何,没有一种单一的扫描策略优于其他策略。对于高分辨率遥感图像的语义分割,一个简单的单一扫描方向已被证明足够。同时,我们推荐了未来研究的相关方向。
May, 2024