AAAIDec, 2023

SkyScript:遥感视觉语言大规模和语义多样性数据集

TL;DR使用地理坐标将无标签的遥感图像与 OpenStreetMap 中的丰富语义相连接,构建了一套遥感图像的综合视觉 - 语言数据集 SkyScript,包含 260 万个图像 - 文本对,覆盖 29K 个不同的语义标签。通过在此数据集上进行持续预训练,我们获得了一个视觉 - 语言模型,相较于基准模型,在七个基准数据集上实现了 6.2%的平均准确率提升,并展示了对于细粒度对象属性分类和跨模态检索的零样本迁移能力。希望该数据集可以支持遥感领域中各种多模态任务的视觉 - 语言模型的进展,如开放词汇分类、检索、字幕生成和文本到图像合成。