SATIN:使用视觉语言模型分类卫星图像的多任务元数据集
研究了一种基于卷积神经网络的零迁移学习模型,该模型利用辅助信息学习一种兼容性函数,实现对未看到类别的识别,并对通过多种辅助信息对新数据集进行了实验验证。
Dec, 2017
本文介绍了AiTLAS基准测试套件,它是用于评估地球观测中图像分类的最先进深度学习方法的开源基准测试套件。我们对500多种模型进行了全面比较分析,以22个不同大小和属性的数据集为基础,并将它们与各种多类别和多标签分类任务进行比较,找到了一个通用而有效的模型。
Jul, 2022
本文介绍了 SSL4EO-L 数据集的设计,使用该数据集现代化并重新发布了 L7 Irish 和 L8 Biome 云检测数据集,并推出了 Landsats 4-5 TM 和 Landsat7 ETM+ SR 的 ML 基准数据集,使用 SSL4EO-L 预训练了 Landsat 影像的基础模型,并在多个语义分割任务上评估了它们的性能。
Jun, 2023
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能2.0的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像-文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进RS领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap包括2,585个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在RS领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在RS背景下的视觉语言模型。
Jul, 2023
我们提出了一种基于视觉语言模型训练遥感图像的方法,无需使用任何文本注释。我们的关键洞察力是使用地面上的互联网图像作为遥感图像和语言之间的中介。通过使用大量的配对互联网和卫星图像,我们训练了遥感图像的图像编码器与CLIP的图像编码器对齐。我们的无监督方法使得能够训练一种新型的大规模遥感图像视觉语言模型(VLM),适用于两种不同分辨率的遥感图像。我们展示了这些VLM在卫星图像的零样本、开放词汇的图像分类、检索、分割和视觉问答任务中的能力。我们的无需文本注释的VLM在这些任务的每个方面都优于现有有监督训练的VLM,分类任务上最高提升了20%,分割任务上提升了80%。
Dec, 2023
使用地理坐标将无标签的遥感图像与OpenStreetMap中的丰富语义相连接,构建了一套遥感图像的综合视觉-语言数据集SkyScript,包含260万个图像-文本对,覆盖29K个不同的语义标签。通过在此数据集上进行持续预训练,我们获得了一个视觉-语言模型,相较于基准模型,在七个基准数据集上实现了6.2%的平均准确率提升,并展示了对于细粒度对象属性分类和跨模态检索的零样本迁移能力。希望该数据集可以支持遥感领域中各种多模态任务的视觉-语言模型的进展,如开放词汇分类、检索、字幕生成和文本到图像合成。
Dec, 2023
我们提供了一个全球范围、高质量、多样性广泛、描述详细的图像-文本数据集ChatEarthNet,其中包含由ChatGPT-3.5生成的163,488个图像-文本对及额外的由ChatGPT-4V生成的10,000个图像-文本对,这对于远程感知的视觉语言基础模型的训练和大型视觉语言模型的评估具有重要潜力,并将供公众使用。
Feb, 2024
本文解决了传统零样本场景分类中,遥感视觉-语言模型通过对大图像分割成小patch而忽略上下文信息的问题。我们提出了一种新方法,利用基于文本提示的初步预测和图像编码器的patch关联关系,以增强零样本分类的能力,实验结果显示在10个遥感数据集上相较于传统方法实现了显著的准确率提升。
Sep, 2024
本研究解决了遥感领域视觉-语言数据集不足的问题。通过引入图像解码机器学习模型,研究者能够无需人工标注收集约960万对视觉-语言数据集。结果表明,该模型在零样本分类、语义定位和图像-文本检索等下游任务中优于未使用公开数据集的对手,展示了显著的效能提升。
Sep, 2024