Mar, 2024

VM-UNET-V2 在医学图像分割中重新思考 Vision Mamba UNet

TL;DR在医学图像分割领域,CNN和Transformer基于模型已经进行了深入研究。然而,CNN对长距离依赖的建模能力有限,使得充分利用图像内的语义信息变得具有挑战性。另一方面,Transformer的二次计算复杂性提出了挑战。最近,基于状态空间模型(SSMs)的方法,如Mamba,被认为是一种有希望的方法。它们不仅在建模长程交互方面表现出卓越性能,而且保持了线性计算复杂性。受到Mamba架构的启发,我们提出了Vision Mamba-UNetV2,引入了Visual State Space(VSS)块来捕捉广泛的上下文信息,引入Semantics and Detail Infusion(SDI)来增强低级和高级特征的融合。我们在ISIC17、ISIC18、CVC-300、CVC-ClinicDB、Kvasir、CVC-ColonDB和ETIS-LaribPolypDB等公共数据集上进行了全面的实验。结果表明,VM-UNetV2在医学图像分割任务中表现出竞争力。我们的代码可在此网址获得