远程感知图像变化检索与标注的多模态框架

Jun, 2024

远程感知图像变化检索与标注的多模态框架

Towards a multimodal framework for remote sensing image change retrieval and captioning

Roger Ferrod, Luigi Di Caro, Dino Ienco

TL;DR在多模态应用中，我们提出了一种创新的基于对比学习的模型，并利用 RS 数据集进行双时序遥感图像对的变化检测分析，实现了文本 - 图像检索功能。

Abstract

Recently, there has been increasing interest in multimodal applications that integrate text with other modalities, such as images, audio and video, to facilitate natural language interactions with multimodal AI systems. While applications involving standard modalities have been extensi

multimodal applications remote sensing data change detection analysis contrastive learning text-image retrieval

发现论文，激发创造

用于标题和检索遥感图像的大规模语言模型

本研究提出了 RS-CapRet，一种远程感知任务的视觉和语言方法，主要用于图像字幕生成和文本 - 图像检索。通过对远程感知图像进行对比性语言 - 图像预训练，我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-CapRet 能够为远程感知图像生成描述，并能够根据文本描述检索图像，以实现与现有方法相媲美的性能。定性结果表明，RS-CapRet 能够有效利用预训练的大型语言模型描述远程感知图像，并能够处理图像和文本的交错序列对话。

Feb, 2024

注意模态差异：通过交叉模态对齐实现遥感视觉语言模型

通过鲁棒的微调与跨模态对齐，本研究提出了一种方法，旨在将 RS（Remote Sensing）图像模态与 CLIP 的视觉和文本模态对齐，从而在 RS 图像分类和跨模态检索任务中获得显著的性能提升。

Feb, 2024

远程感知变化字幕的注意力网络

通过使用自然语言处理技术直接学习和分析遥感图像，本研究提出使用 Chg2Cap 网络处理双时相遥感图像变化标注任务，该网络包括 Siamese CNN 特征提取器、注重变化相关特征的自注意力编码器和 Transformer 生成器，并在两个典型遥感数据集上经过充分实验验证。

Apr, 2023

变革代理：从变化检测和变化字幕逐步推进互动综合变革解释与分析

通过改变检测和改变标题、改变对象计数和改变原因分析等用户指令实现全面的改变解释和深入分析的交互式改变代理及其多层次改变解释模型的提出，利用 BI3 和 LPE、GDFA 来增强模型的特征表示能力，并通过 LEVIR-MCI 数据集的训练和广泛实验证明了其有效性和潜在潜力，为未来的研究提供了数据和代码。

Mar, 2024

Diffusion-RSCC: 遥感图像中变化描述的扩散概率模型

遥感图像变化标题生成（RSICC）旨在生成人类化语言，描述双时相遥感图像对之间的语义变化。我们提出了一种概率扩散模型来解决传统变化标题生成任务中的像素级差异对地形变化定位的影响，并在 LEVIR-CC 数据集上进行了广泛实验，展示了我们 Diffusion-RSCC 的有效性及其各个组成部分。

May, 2024

RSAdapter: 适用于遥感视觉问答的多模型适应器

我们提出了一种名为 RSAdapter 的新方法，它通过并行适配器和每个全连接层之后插入的额外线性转换层来提高预训练多模态模型的适应性，并降低推理成本，通过在三个 RS-VQA 数据集上的实验证明其有效性。

Oct, 2023

遥感图像目标检测的跨通道注意力多模态变换器

通过多模式远程感知数据进行对象检测，提出了一个基于多模式变换器的解决方案，包括交叉通道注意力模块和结合卷积层和固定维度的新架构，以实现细粒度到粗粒度的表示生成，并在广泛实验中验证了其有效性和适用性。

Oct, 2023

半监督遥感图像变化检测中一致性正则化的再探

该论文提出一种半监督式变化检测方法，通过利用未标记的双时间遥感图像来提高深度学习模型的准确性，试验结果表明，该方法即使只有 10% 的标记数据，其准确率也可以接近于有监督学习方法。

Apr, 2022

RSGPT：遥感视觉语言模型与基准

大规模语言模型的出现显著推动了人工智能的快速发展，并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而，目前的研究主要集中在视觉识别任务上，缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集，这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同，RSICap 包括 2,585 个人工注释的字幕，具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述，包括场景描述（例如居住区、机场或农田）以及对象信息（例如颜色、形状、数量、绝对位置等）。为了促进在 RS 领域中对视觉语言模型的评估，我们还提供了一个基准评估数据集 RSIEval，它包括人工注释的字幕和视觉问答对，可以全面评估在 RS 背景下的视觉语言模型。

Jul, 2023

LHRS-Bot：利用 VGI 增强的大型多模态语言模型强化遥感

利用大规模遥感图像 - 文本数据集和遥感特定指令数据集，我们构建了针对遥感图像理解的多模态大语言模型（MLLM）LHRS-Bot，通过新颖的多层次视觉 - 语言对齐策略和课程学习方法，展现了在遥感领域中深入理解遥感图像和进行细致推理的能力。

Feb, 2024