Dec, 2023

SkyScript:遥感视觉语言大规模和语义多样性数据集

TL;DR使用地理坐标将无标签的遥感图像与OpenStreetMap中的丰富语义相连接,构建了一套遥感图像的综合视觉-语言数据集SkyScript,包含260万个图像-文本对,覆盖29K个不同的语义标签。通过在此数据集上进行持续预训练,我们获得了一个视觉-语言模型,相较于基准模型,在七个基准数据集上实现了6.2%的平均准确率提升,并展示了对于细粒度对象属性分类和跨模态检索的零样本迁移能力。希望该数据集可以支持遥感领域中各种多模态任务的视觉-语言模型的进展,如开放词汇分类、检索、字幕生成和文本到图像合成。