VRSBench:用于遥感图像理解的通用视觉语言基准数据集
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap 包括 2,585 个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在 RS 领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集 RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在 RS 背景下的视觉语言模型。
Jul, 2023
使用地理坐标将无标签的遥感图像与 OpenStreetMap 中的丰富语义相连接,构建了一套遥感图像的综合视觉 - 语言数据集 SkyScript,包含 260 万个图像 - 文本对,覆盖 29K 个不同的语义标签。通过在此数据集上进行持续预训练,我们获得了一个视觉 - 语言模型,相较于基准模型,在七个基准数据集上实现了 6.2%的平均准确率提升,并展示了对于细粒度对象属性分类和跨模态检索的零样本迁移能力。希望该数据集可以支持遥感领域中各种多模态任务的视觉 - 语言模型的进展,如开放词汇分类、检索、字幕生成和文本到图像合成。
Dec, 2023
使用众包数据,本文基于深度卷积神经网络,构建了一个远程遥感图像分类基准测试集,该基准测试集包含两个子数据集,分别为 256×256 和 128×128 像素大小,用于比较与现有基准测试集在手工特征和经典的深度卷积神经网络模型下的表现。
May, 2017
远程传感图像智能理解模型正在经历一个深刻的新范式转变,即从学习域模型的范式转变为先学习预训练的通用基础模型,然后再进行自适应域模型的范式。在新的自适应域模型范式下,过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务:1) 泛化性:训练模型学习多个任务之间的共享知识,并适应不同的任务;2) 理解复杂场景:训练模型理解感兴趣对象的细粒度属性,并能用自然语言描述场景;3) 推理能力:训练模型能够实现高层次的视觉推理。本文设计了一个由 GPT-4V 和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集,我们称之为 RS-GPT4V。为了实现泛化性,我们使用了由 GPT-4V 通过指令跟踪引导推导出来的(问题,答案)对来统一诸如字幕和定位等任务;为了实现复杂场景,我们提出了一种具有局部策略的分层指令描述方式,描述了对象的细粒度属性和它们的空间关系,并具有全局策略将所有局部信息集成以生成详细的指令描述;为了实现推理能力,我们设计了多轮问答对来为模型提供推理能力。实证结果表明,通过 RS-GPT4V 微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取:https://example.com
Jun, 2024
本文提出了一种新的框架,包括领域基础模型(DFM),该模型缩小了通用基础模型(GFM)和特定领域下游任务之间的差距,并通过预训练的 VLM 将筛选后的遥感图像与英文描述进行配对,构成了第一个大规模遥感图像 - 文本匹配数据集。在该数据集上的实验结果表明,使用上述数据集和提出的 DFM 方法的零样本分类和视觉语言检索任务的性能都较好,并且 RS Stable Diffusion 模型的训练也取得了成功的结果。
Jun, 2023
该研究构建了包含 1.4 百万图像 - 字幕对的大规模高质量细节遥感图像数据集 HqDC-1.4M,提供了对遥感图像更好的理解并显著提高了模型的空间感知能力;同时,开发了 RSSA 数据集,通过将无法回答的问题纳入典型的遥感视觉问答任务中,有效改善了模型输出的真实性和幻觉现象,增强了遥感视觉语言模型的诚实度;基于这些数据集,提出了 H2RSVLM,该模型在多个公共遥感数据集上取得了出色的性能,并能识别和拒绝无法回答的问题,有效减轻了错误的生成。
Mar, 2024
本研究提出了 RS-CapRet,一种远程感知任务的视觉和语言方法,主要用于图像字幕生成和文本 - 图像检索。通过对远程感知图像进行对比性语言 - 图像预训练,我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-CapRet 能够为远程感知图像生成描述,并能够根据文本描述检索图像,以实现与现有方法相媲美的性能。定性结果表明,RS-CapRet 能够有效利用预训练的大型语言模型描述远程感知图像,并能够处理图像和文本的交错序列对话。
Feb, 2024
遥感视觉问答(RSVQA)是通过自然语言实现人机交互,利用航空图像为大众提供了新的机会。然而,RSVQA 中的语言偏见问题往往被忽视,而这会影响模型的健壮性并导致关于模型表现的错误结论。因此,本研究旨在通过视觉盲模型、对抗性测试和数据集分析三个方面来凸显 RSVQA 中的语言偏见问题,并提出更具信息量和互补性的评估指标,力求透明地传达未来 RSVQA 方法的结果。
Nov, 2023
本文介绍了一种利用自然语言提问并结合卷积神经网络(CNN)和循环神经网络(RNN)用于从遥感数据中提取高层信息的方法。使用 OpenStreetMap(OSM)查询,构建了两个包含图像 / 问题 / 答案三元组的数据集,并使用这些数据集培训和评估了模型,实现了遥感图像问答任务。
Mar, 2020
本研究提供了一种新型用于遥感图像检索 (RSIR) 的大规模数据集称为 PatternNet, 同时对传统的手工特征方法和近期的深度学习方法进行了全面评估,以建立 PatternNet 基准测试结果作为未来遥感数据检索算法研究的基础。
Jun, 2017