Apr, 2024

RSCaMa:带有状态空间模型的遥感图像变化描述

TL;DR远程感知图像变化字幕化通过识别多时相遥感图像中的表面变化并用自然语言描述它们,当前的方法通常依赖于编码器 - 解码器结构,并侧重于设计一个复杂的 “颈部” 来处理骨干提取的双时相特征。最近,状态空间模型(SSM),特别是 Mamba,在许多领域展示了出色的性能,这归功于其高效的特征选择建模能力。然而,它们在 RSICC 任务中的潜力尚未被探索。本文将 Mamba 引入到 RSICC 中,并提出了一种名为 RSCaMa(远程感知变化字幕化 Mamba)的新方法。具体而言,我们利用孪生骨干提取双时相特征,然后通过由空间差异引导的 SSM(SD-SSM)和时间逐步旅行的 SSM(TT-SSM)组成的多 CaMa 层进行处理。SD-SSM 利用差异特征来增强变化感知能力,而 TT-SSM 以记号级跨扫描方式促进双时相交互作用。实验证明了 CaMa 层的有效性,并展示出 RSCaMa 的卓越性能以及 Mamba 在 RSICC 任务中的潜力。此外,我们系统地比较了三种语言解码器的效果,包括 Mamba、具有因果关注机制的 GPT 风格解码器以及具有交叉关注机制的 Transformer 解码器。这为未来的 RSICC 研究提供了有价值的见解。代码将可在此链接上找到。