Jun, 2024

Seg-LSTM: 遥感图像语义分割的 xLSTM 性能

TL;DR近期自回归网络的线性复杂度提升极大地推动了研究进展,在大型语言模型上表现出色。代表性模型为扩展长短期记忆网络 (xLSTM),其融合了门控机制和记忆结构,在长序列语言任务上与 Transformer 架构可媲美。自回归网络如 xLSTM 可利用图像串行化扩展其应用于诸如分类和分割等视觉任务。尽管现有研究已经在图像分类方面证明了 Vision-LSTM 的出色结果,但其在图像语义分割方面的表现尚未得到验证。我们的研究首次尝试评估 Vision-LSTM 在遥感图像语义分割中的有效性。此评估基于一种名为 Seg-LSTM 的经过专门设计的编码器 - 解码器架构,并与目前最先进的分割网络进行比较。我们的研究发现 Vision-LSTM 在语义分割方面的表现受限,一般较 Vision-Transformers 和 Vision-Mamba 模型差强人意。建议未来研究方向是增强 Vision-LSTM。源代码可从此链接获取。