May, 2024

视觉曼巴在遥感影像语义分割中的扫描策略重新思考:实验研究

TL;DR深度学习方法在高分辨率遥感图像的语义分割中扮演重要角色,主要采用卷积神经网络(CNN)和视觉 Transformer(ViT)。然而,CNN 由于有限的感受野而受限,而 ViT 则面临二次复杂度的挑战。最近,Mamba 模型因具有线性复杂性和全局感受野而引发广泛关注。此类任务需要将图像序列化为与 Mamba 模型兼容的序列。许多研究工作探索了能够增强 Mamba 模型对图像理解的扫描策略,但是这些扫描策略的有效性仍不确定。我们通过对 LoveDA、ISPRS Potsdam 和 ISPRS Vaihingen 数据集进行广泛实验,全面地探究了主流扫描方向及其组合对遥感图像的语义分割的影响。结果表明,无论复杂性或所涉及的扫描方向数量如何,没有一种单一的扫描策略优于其他策略。对于高分辨率遥感图像的语义分割,一个简单的单一扫描方向已被证明足够。同时,我们推荐了未来研究的相关方向。