Mar, 2024

VM-UNET-V2 在医学图像分割中重新思考 Vision Mamba UNet

TL;DR在医学图像分割领域,CNN 和 Transformer 基于模型已经进行了深入研究。然而,CNN 对长距离依赖的建模能力有限,使得充分利用图像内的语义信息变得具有挑战性。另一方面,Transformer 的二次计算复杂性提出了挑战。最近,基于状态空间模型(SSMs)的方法,如 Mamba,被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能,而且保持了线性计算复杂性。受到 Mamba 架构的启发,我们提出了 Vision Mamba-UNetV2,引入了 Visual State Space(VSS)块来捕捉广泛的上下文信息,引入 Semantics and Detail Infusion(SDI)来增强低级和高级特征的融合。我们在 ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB 和 ETIS-LaribPolypDB 等公共数据集上进行了全面的实验。结果表明,VM-UNetV2 在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得