增强遥感视觉-语言模型的零样本场景分类

Sep, 2024

增强遥感视觉-语言模型的零样本场景分类

Enhancing Remote Sensing Vision-Language Models for Zero-Shot Scene Classification

Karim El Khoury, Maxime Zanella, Benoît Gérin, Tiffanie Godelaine, Benoît Macq...

TL;DR本文解决了传统零样本场景分类中，遥感视觉-语言模型通过对大图像分割成小patch而忽略上下文信息的问题。我们提出了一种新方法，利用基于文本提示的初步预测和图像编码器的patch关联关系，以增强零样本分类的能力，实验结果显示在10个遥感数据集上相较于传统方法实现了显著的准确率提升。

Abstract

Vision-Language Models for Remote Sensing have shown promising uses thanks to their extensive pretraining. However, their conventional usage in zero-shot scene classification methods still involves dividing large

发现论文，激发创造

遥感影像中的细粒度物体识别与零样本学习

研究了一种基于卷积神经网络的零迁移学习模型，该模型利用辅助信息学习一种兼容性函数，实现对未看到类别的识别，并对通过多种辅助信息对新数据集进行了实验验证。

Dec, 2017

遥感中的视觉语言模型：当前进展与未来趋势

本文针对远程感知领域，综述图像与文字有关的任务及相关研究领域中，采用视觉语言模型的最新进展和挑战，以及未来的发展方向。

May, 2023

RemoteCLIP: 远程感知的视觉语言基础模型

RemoteCLIP是第一个用于遥感领域的视觉-语言基础模型，利用数据扩充和转换方法进行预训练，可用于零样本分类、图像文本检索和物体计数等任务，并在16个数据集上均优于基线模型。

Jun, 2023

RS5M：一种用于遥感视觉语言的大规模数据集和基础模型

本文提出了一种新的框架，包括领域基础模型（DFM），该模型缩小了通用基础模型（GFM）和特定领域下游任务之间的差距，并通过预训练的VLM将筛选后的遥感图像与英文描述进行配对，构成了第一个大规模遥感图像-文本匹配数据集。在该数据集上的实验结果表明，使用上述数据集和提出的DFM方法的零样本分类和视觉语言检索任务的性能都较好，并且RS Stable Diffusion模型的训练也取得了成功的结果。

Jun, 2023

通过地面遥感对齐构建无需注释的遥感视觉-语言基础模型

我们提出了一种基于视觉语言模型训练遥感图像的方法，无需使用任何文本注释。我们的关键洞察力是使用地面上的互联网图像作为遥感图像和语言之间的中介。通过使用大量的配对互联网和卫星图像，我们训练了遥感图像的图像编码器与CLIP的图像编码器对齐。我们的无监督方法使得能够训练一种新型的大规模遥感图像视觉语言模型(VLM)，适用于两种不同分辨率的遥感图像。我们展示了这些VLM在卫星图像的零样本、开放词汇的图像分类、检索、分割和视觉问答任务中的能力。我们的无需文本注释的VLM在这些任务的每个方面都优于现有有监督训练的VLM，分类任务上最高提升了20%，分割任务上提升了80%。

Dec, 2023

SkyScript：遥感视觉语言大规模和语义多样性数据集

使用地理坐标将无标签的遥感图像与OpenStreetMap中的丰富语义相连接，构建了一套遥感图像的综合视觉-语言数据集SkyScript，包含260万个图像-文本对，覆盖29K个不同的语义标签。通过在此数据集上进行持续预训练，我们获得了一个视觉-语言模型，相较于基准模型，在七个基准数据集上实现了6.2％的平均准确率提升，并展示了对于细粒度对象属性分类和跨模态检索的零样本迁移能力。希望该数据集可以支持遥感领域中各种多模态任务的视觉-语言模型的进展，如开放词汇分类、检索、字幕生成和文本到图像合成。

Dec, 2023

通过使用文本描述使VLMs适应性更好的零射分类改进

通过使用大型语言模型（LLMs）生成的类别描述和丰富的细粒度图像分类数据集，我们提出了一种方法来改善视觉-语言模型（VLMs）在细粒度领域的零样本分类性能。通过在训练过程中利用图像-文本监督，我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了4-5％。地理先验也被证明对于改善零样本分类同样有效，与视觉特征互补。我们计划发布包含7个数据集的基准测试，以促进未来的零样本识别研究。

Jan, 2024

SkyEyeGPT: 大型语言模型中通过指令调整实现遥感视觉-语言任务的统一

SkyEyeGPT是一个针对远程感知视觉语言理解而设计的统一的多模态大型语言模型，通过对视觉特征与语言域的对齐以及使用LLM的RS解码器来预测远程感知开放式任务的答案，在RS视觉语言任务中表现出卓越的图像级和区域级任务结果。

Jan, 2024

零样本遥感图像场景分类的深度语义视觉对齐

我们通过机器自动收集可视属性，并利用转换器中的自注意机制将局部图像区域关联起来，集成背景上下文信息进行预测，以解决远程感知场景分类中的零样本学习问题。通过广泛实验，我们展示了我们的模型在具有挑战性的大规模远程感知场景分类基准上优于其他最先进模型。

Feb, 2024

在没有人工标注的情况下推动视觉-语言模型在遥感中的极限

本研究解决了遥感领域视觉-语言数据集不足的问题。通过引入图像解码机器学习模型，研究者能够无需人工标注收集约960万对视觉-语言数据集。结果表明，该模型在零样本分类、语义定位和图像-文本检索等下游任务中优于未使用公开数据集的对手，展示了显著的效能提升。

Sep, 2024