CDChat：用于遥感变化描述的大型多模态模型

Sep, 2024

CDChat：用于遥感变化描述的大型多模态模型

CDChat: A Large Multimodal Model for Remote Sensing Change Description

Mubashir Noman, Noor Ahsan, Muzammal Naseer, Hisham Cholakkal, Rao Muhammad Anwer...

TL;DR本研究针对现有大型多模态模型在遥感图像内容描述中的不足，提出了一种新的变化描述指令数据集。这种数据集能够有效微调模型，从而提升对双时相遥感图像变化的描述能力，实验表明经过微调的LLaVA-1.5模型在该任务上表现显著提升。

Abstract

Large multimodal models (LMMs) have shown encouraging performance in the natural image domain using visual instruction tuning. However, these LMMs struggle to describe the content of remote sensing images for tas

发现论文，激发创造

远程感知变化字幕的注意力网络

通过使用自然语言处理技术直接学习和分析遥感图像，本研究提出使用Chg2Cap网络处理双时相遥感图像变化标注任务，该网络包括Siamese CNN特征提取器、注重变化相关特征的自注意力编码器和Transformer生成器，并在两个典型遥感数据集上经过充分实验验证。

Apr, 2023

GeoChat: 用于遥感的基于大规模视觉语言模型的实体化系统

GeoChat是第一个多功能的遥感视觉语言模型，它具备高分辨率遥感图像的多任务对话能力，并能将对象视觉上地与其空间坐标相关联，通过扩展现有多样的遥感数据集中的图像-文本对生成了一个新的领域特定的多模态指令跟随数据集，成功解决了现有模型在遥感领域的局限性，并在各个遥感任务上展示了强大的零样本性能。

Nov, 2023

SkyEyeGPT: 大型语言模型中通过指令调整实现遥感视觉-语言任务的统一

SkyEyeGPT是一个针对远程感知视觉语言理解而设计的统一的多模态大型语言模型，通过对视觉特征与语言域的对齐以及使用LLM的RS解码器来预测远程感知开放式任务的答案，在RS视觉语言任务中表现出卓越的图像级和区域级任务结果。

Jan, 2024

ChangeBind: 远程感知变化检测的混合变化编码器

提出了一种基于Siamese网络架构的改变检测方法，通过利用局部和全局特征表示捕捉多尺度特征，精确估计改变区域，实现了对遥感图像的语义变化的编码。在两个具有挑战性的改变检测数据集上的实验研究表明了该方法的优势，并获得了最先进的性能。

Apr, 2024

RSCaMa：带有状态空间模型的遥感图像变化描述

远程感知图像变化字幕化通过识别多时相遥感图像中的表面变化并用自然语言描述它们，当前的方法通常依赖于编码器-解码器结构，并侧重于设计一个复杂的“颈部”来处理骨干提取的双时相特征。最近，状态空间模型（SSM），特别是Mamba，在许多领域展示了出色的性能，这归功于其高效的特征选择建模能力。然而，它们在RSICC任务中的潜力尚未被探索。本文将Mamba引入到RSICC中，并提出了一种名为RSCaMa（远程感知变化字幕化Mamba）的新方法。具体而言，我们利用孪生骨干提取双时相特征，然后通过由空间差异引导的SSM（SD-SSM）和时间逐步旅行的SSM（TT-SSM）组成的多CaMa层进行处理。SD-SSM利用差异特征来增强变化感知能力，而TT-SSM以记号级跨扫描方式促进双时相交互作用。实验证明了CaMa层的有效性，并展示出RSCaMa的卓越性能以及Mamba在RSICC任务中的潜力。此外，我们系统地比较了三种语言解码器的效果，包括Mamba、具有因果关注机制的GPT风格解码器以及具有交叉关注机制的Transformer解码器。这为未来的RSICC研究提供了有价值的见解。代码将可在此链接上找到。

Apr, 2024

MGIMM：面向属性引导的遥感影像细节描述的多粒度指令多模态模型

本文提出了一种属性引导的多粒度指令多模型（MGIMM），用于遥感图像的详细描述，并通过在区域级别指导调整实现了多模型的一致性学习。通过多颗粒度的视觉特征，MGIMM可以充分感知区域级和全局图像信息，利用大语言模型对遥感图像进行全面的描述。实验证明了MGIMM的区域-属性引导学习方法的有效性。

Jun, 2024

RS-GPT4V：一份用于遥感图像理解的统一多模态指令跟随数据集

远程传感图像智能理解模型正在经历一个深刻的新范式转变，即从学习域模型的范式转变为先学习预训练的通用基础模型，然后再进行自适应域模型的范式。在新的自适应域模型范式下，过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务：1)泛化性：训练模型学习多个任务之间的共享知识，并适应不同的任务；2)理解复杂场景：训练模型理解感兴趣对象的细粒度属性，并能用自然语言描述场景；3)推理能力：训练模型能够实现高层次的视觉推理。本文设计了一个由GPT-4V和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集，我们称之为RS-GPT4V。为了实现泛化性，我们使用了由GPT-4V通过指令跟踪引导推导出来的（问题，答案）对来统一诸如字幕和定位等任务；为了实现复杂场景，我们提出了一种具有局部策略的分层指令描述方式，描述了对象的细粒度属性和它们的空间关系，并具有全局策略将所有局部信息集成以生成详细的指令描述；为了实现推理能力，我们设计了多轮问答对来为模型提供推理能力。实证结果表明，通过RS-GPT4V微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取：https://example.com

Jun, 2024

远程感知图像变化检索与标注的多模态框架

在多模态应用中，我们提出了一种创新的基于对比学习的模型，并利用RS数据集进行双时序遥感图像对的变化检测分析，实现了文本-图像检索功能。

Jun, 2024

ChangeChat：一种通过多模态指令调优进行遥感变化分析的互动模型

本研究解决了传统遥感变化检测无法上下文化像素级变化及缺乏交互式用户查询的问题。提出的ChangeChat模型是首个专为遥感变化分析设计的双时相视觉-语言模型，利用多模态指令调优来处理复杂查询。实验结果表明，ChangeChat在特定任务上表现优于当前最先进的方法，并在用户交互方面具有显著优势。

Sep, 2024

一种针对多模态模型的自适应微调算法：遥感中高质量数据集的自我优化分类与选择

本研究解决了多模态大模型训练中数据选择的效率问题，提出了一种自适应微调算法，该算法首先通过MiniBatchKMeans算法对数据进行自动聚类，再基于数据的泛化度选择高质量数据进行训练。研究结果表明，该算法在多项遥感评估指标上显著优于现有最佳基准，并将训练时间缩短了68.2%。

Sep, 2024