RS5M：一种用于遥感视觉语言的大规模数据集和基础模型

Jun, 2023

RS5M：一种用于遥感视觉语言的大规模数据集和基础模型

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

Zilun Zhang, Tiancheng Zhao, Yulong Guo, Jianwei Yin

TL;DR本文提出了一种新的框架，包括领域基础模型（DFM），该模型缩小了通用基础模型（GFM）和特定领域下游任务之间的差距，并通过预训练的VLM将筛选后的遥感图像与英文描述进行配对，构成了第一个大规模遥感图像-文本匹配数据集。在该数据集上的实验结果表明，使用上述数据集和提出的DFM方法的零样本分类和视觉语言检索任务的性能都较好，并且RS Stable Diffusion模型的训练也取得了成功的结果。

Abstract

Pre-trained vision-language Foundation Models utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pr

发现论文，激发创造

遥感中的视觉语言模型：当前进展与未来趋势

本文针对远程感知领域，综述图像与文字有关的任务及相关研究领域中，采用视觉语言模型的最新进展和挑战，以及未来的发展方向。

May, 2023

RSGPT：遥感视觉语言模型与基准

大规模语言模型的出现显著推动了人工智能的快速发展，并引发了人工智能2.0的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而，目前的研究主要集中在视觉识别任务上，缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像-文本数据集，这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），用于促进RS领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同，RSICap包括2,585个人工注释的字幕，具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述，包括场景描述（例如居住区、机场或农田）以及对象信息（例如颜色、形状、数量、绝对位置等）。为了促进在RS领域中对视觉语言模型的评估，我们还提供了一个基准评估数据集RSIEval，它包括人工注释的字幕和视觉问答对，可以全面评估在RS背景下的视觉语言模型。

Jul, 2023

GeoChat: 用于遥感的基于大规模视觉语言模型的实体化系统

GeoChat是第一个多功能的遥感视觉语言模型，它具备高分辨率遥感图像的多任务对话能力，并能将对象视觉上地与其空间坐标相关联，通过扩展现有多样的遥感数据集中的图像-文本对生成了一个新的领域特定的多模态指令跟随数据集，成功解决了现有模型在遥感领域的局限性，并在各个遥感任务上展示了强大的零样本性能。

Nov, 2023

通过地面遥感对齐构建无需注释的遥感视觉-语言基础模型

我们提出了一种基于视觉语言模型训练遥感图像的方法，无需使用任何文本注释。我们的关键洞察力是使用地面上的互联网图像作为遥感图像和语言之间的中介。通过使用大量的配对互联网和卫星图像，我们训练了遥感图像的图像编码器与CLIP的图像编码器对齐。我们的无监督方法使得能够训练一种新型的大规模遥感图像视觉语言模型(VLM)，适用于两种不同分辨率的遥感图像。我们展示了这些VLM在卫星图像的零样本、开放词汇的图像分类、检索、分割和视觉问答任务中的能力。我们的无需文本注释的VLM在这些任务的每个方面都优于现有有监督训练的VLM，分类任务上最高提升了20%，分割任务上提升了80%。

Dec, 2023

SkyEyeGPT: 大型语言模型中通过指令调整实现遥感视觉-语言任务的统一

SkyEyeGPT是一个针对远程感知视觉语言理解而设计的统一的多模态大型语言模型，通过对视觉特征与语言域的对齐以及使用LLM的RS解码器来预测远程感知开放式任务的答案，在RS视觉语言任务中表现出卓越的图像级和区域级任务结果。

Jan, 2024

用于标题和检索遥感图像的大规模语言模型

本研究提出了RS-CapRet，一种远程感知任务的视觉和语言方法，主要用于图像字幕生成和文本-图像检索。通过对远程感知图像进行对比性语言-图像预训练，我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-CapRet能够为远程感知图像生成描述，并能够根据文本描述检索图像，以实现与现有方法相媲美的性能。定性结果表明，RS-CapRet能够有效利用预训练的大型语言模型描述远程感知图像，并能够处理图像和文本的交错序列对话。

Feb, 2024

VRSBench：用于遥感图像理解的通用视觉语言基准数据集

我们引入了一个新的基准，旨在推进远程感知图像的通用、大规模的视觉语言模型的发展。

Jun, 2024

RSTeller：利用开放数据和大型语言模型在遥感中扩展视觉语言建模

本研究解决了遥感图像标注复杂语言语义缺乏的问题。提出了一种利用大型语言模型从OpenStreetMap生成富有语义描述的多模态数据集的工作流程。RSTeller数据集包含超过100万幅遥感图像及其多重描述，显著降低了手动标注的工作量，推动视觉语言建模的进步。

Aug, 2024

在没有人工标注的情况下推动视觉-语言模型在遥感中的极限

本研究解决了遥感领域视觉-语言数据集不足的问题。通过引入图像解码机器学习模型，研究者能够无需人工标注收集约960万对视觉-语言数据集。结果表明，该模型在零样本分类、语义定位和图像-文本检索等下游任务中优于未使用公开数据集的对手，展示了显著的效能提升。

Sep, 2024

遥感领域的多语种视觉-语言预训练

本研究解决了遥感领域视觉-语言任务中的多语种输入适应性不足的问题。通过探索多语种CLIP模型的微调以及基于对齐局部和全局表示的自监督方法，提出了一种新的视觉-语言模型，显著提高了多语种图像-文本检索和零样本图像分类的性能。最终，模型RS-M-CLIP在多项视觉-语言任务中取得了最先进的结果，显示了翻译数据的有效性。

Oct, 2024