一种用于遥感图像变化描述的轻量级 Transformer
用于遥感图像超分辨率 (RSISR) 的新型 Transformer 网络 SPIFFNet,通过引入跨空间像素整合和跨阶段特征融合注意力机制,有效提高了全局认知和特征表达能力,从而在定量度量和视觉质量上优于现有方法。
Jul, 2023
遥感图像变化标题生成(RSICC)旨在生成人类化语言,描述双时相遥感图像对之间的语义变化。我们提出了一种概率扩散模型来解决传统变化标题生成任务中的像素级差异对地形变化定位的影响,并在 LEVIR-CC 数据集上进行了广泛实验,展示了我们 Diffusion-RSCC 的有效性及其各个组成部分。
May, 2024
远程感知图像变化字幕化通过识别多时相遥感图像中的表面变化并用自然语言描述它们,当前的方法通常依赖于编码器 - 解码器结构,并侧重于设计一个复杂的 “颈部” 来处理骨干提取的双时相特征。最近,状态空间模型(SSM),特别是 Mamba,在许多领域展示了出色的性能,这归功于其高效的特征选择建模能力。然而,它们在 RSICC 任务中的潜力尚未被探索。本文将 Mamba 引入到 RSICC 中,并提出了一种名为 RSCaMa(远程感知变化字幕化 Mamba)的新方法。具体而言,我们利用孪生骨干提取双时相特征,然后通过由空间差异引导的 SSM(SD-SSM)和时间逐步旅行的 SSM(TT-SSM)组成的多 CaMa 层进行处理。SD-SSM 利用差异特征来增强变化感知能力,而 TT-SSM 以记号级跨扫描方式促进双时相交互作用。实验证明了 CaMa 层的有效性,并展示出 RSCaMa 的卓越性能以及 Mamba 在 RSICC 任务中的潜力。此外,我们系统地比较了三种语言解码器的效果,包括 Mamba、具有因果关注机制的 GPT 风格解码器以及具有交叉关注机制的 Transformer 解码器。这为未来的 RSICC 研究提供了有价值的见解。代码将可在此链接上找到。
Apr, 2024
为了解决 Transformer 网络在遥感图片变化检测中可能存在的问题,本文提出了一种轻量级结构感知 Transformer(LSAT)网络,有效地提高了 RS 图片 CD 的特征表达能力,并在各种 VHR RS 图片 CD 方法中实现了更好的检测精度和计算成本平衡。
Jun, 2023
通过使用自然语言处理技术直接学习和分析遥感图像,本研究提出使用 Chg2Cap 网络处理双时相遥感图像变化标注任务,该网络包括 Siamese CNN 特征提取器、注重变化相关特征的自注意力编码器和 Transformer 生成器,并在两个典型遥感数据集上经过充分实验验证。
Apr, 2023
基于视觉语言预训练的新型交互式傅里叶变换方法,用于实现远程感知图像字幕生成,通过对遥感图像和文本特征的更好对齐,提高了语义一致性,并在多个数据集上表现出超过其他方法的优越性能。
Dec, 2023
通过模型训练和像素级 CD 伪标签,我们提出了一种用于遥感图像变化字幕的创新网络,该网络具有辅助的 CD 分支和语义融合增强模块,经实验证明此方法在描述变化方面取得了最先进的性能。
Dec, 2023
本文提出了一种全新的变化检测方法,采用转换器进行从头开始训练,并在四个公共基准测试中实现了最先进的性能。该方法使用一种混洗的稀疏注意力操作来捕获 CD 数据的固有特征,并介绍了一种改变增强的特征融合模块来提高相关语义变化,同时抑制噪声。
Apr, 2023
介绍了一种基于双时相图像转换器的新颖的深度学习框架,用于高分辨率遥感图像变化检测,该框架通过对空时时域内的上下文进行编码来优化特征提取,实现更快速,更准确的目标检测,相对于现有的基于注意力机制的方法,本文提出的方法在提高准确性的同时,可以节省更多的计算成本。
Feb, 2021
本研究提出了 CaPtion TransformeR (简称 CPTR)这一基于序列到序列(sequence-to-sequence) 预测方法的图片标注任务模型。与传统的 “CNN+Transformer” 设计范式不同,本研究的模型从一开始就可以在每个编码层中对全局上下文进行建模,并完全摒弃了卷积层。在 MSCOCO 数据集上进行的大量实验证明了 CPTR 模型的有效性,本研究还提供了全 Transformer 架构中编码器中各个 Patch 之间的自注意力以及解码器中单词到 Patch 的注意力等详细的可视化效果。
Jan, 2021