一种针对多模态模型的自适应微调算法:遥感中高质量数据集的自我优化分类与选择
本文提出了一个用于遥感数据的前沿技术——共享和特定特征学习(S2FL)模型。该模型不仅可以将多模式遥感数据分解为模态共享和模态特定组件,更可以在陆地覆盖分类等多方面任务上发挥有效作用,达到其前沿性和先进性的地位。
May, 2021
GeoChat是第一个多功能的遥感视觉语言模型,它具备高分辨率遥感图像的多任务对话能力,并能将对象视觉上地与其空间坐标相关联,通过扩展现有多样的遥感数据集中的图像-文本对生成了一个新的领域特定的多模态指令跟随数据集,成功解决了现有模型在遥感领域的局限性,并在各个遥感任务上展示了强大的零样本性能。
Nov, 2023
使用地理坐标将无标签的遥感图像与OpenStreetMap中的丰富语义相连接,构建了一套遥感图像的综合视觉-语言数据集SkyScript,包含260万个图像-文本对,覆盖29K个不同的语义标签。通过在此数据集上进行持续预训练,我们获得了一个视觉-语言模型,相较于基准模型,在七个基准数据集上实现了6.2%的平均准确率提升,并展示了对于细粒度对象属性分类和跨模态检索的零样本迁移能力。希望该数据集可以支持遥感领域中各种多模态任务的视觉-语言模型的进展,如开放词汇分类、检索、字幕生成和文本到图像合成。
Dec, 2023
我们提供了一个全球范围、高质量、多样性广泛、描述详细的图像-文本数据集ChatEarthNet,其中包含由ChatGPT-3.5生成的163,488个图像-文本对及额外的由ChatGPT-4V生成的10,000个图像-文本对,这对于远程感知的视觉语言基础模型的训练和大型视觉语言模型的评估具有重要潜力,并将供公众使用。
Feb, 2024
通过采用“Harmonized Transfer Learning and Modality Alignment (HarMA)”方法,本研究在遥感领域中实现了优异的性能,同时最小化了训练开销,通过满足任务约束、模态对齐和单模态统一对齐三个目标,而不需要外部数据进行训练。
Apr, 2024
本文提出了一种属性引导的多粒度指令多模型(MGIMM),用于遥感图像的详细描述,并通过在区域级别指导调整实现了多模型的一致性学习。通过多颗粒度的视觉特征,MGIMM可以充分感知区域级和全局图像信息,利用大语言模型对遥感图像进行全面的描述。实验证明了MGIMM的区域-属性引导学习方法的有效性。
Jun, 2024
远程传感图像智能理解模型正在经历一个深刻的新范式转变,即从学习域模型的范式转变为先学习预训练的通用基础模型,然后再进行自适应域模型的范式。在新的自适应域模型范式下,过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务:1)泛化性:训练模型学习多个任务之间的共享知识,并适应不同的任务;2)理解复杂场景:训练模型理解感兴趣对象的细粒度属性,并能用自然语言描述场景;3)推理能力:训练模型能够实现高层次的视觉推理。本文设计了一个由GPT-4V和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集,我们称之为RS-GPT4V。为了实现泛化性,我们使用了由GPT-4V通过指令跟踪引导推导出来的(问题,答案)对来统一诸如字幕和定位等任务;为了实现复杂场景,我们提出了一种具有局部策略的分层指令描述方式,描述了对象的细粒度属性和它们的空间关系,并具有全局策略将所有局部信息集成以生成详细的指令描述;为了实现推理能力,我们设计了多轮问答对来为模型提供推理能力。实证结果表明,通过RS-GPT4V微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取:https://example.com
Jun, 2024
本研究解决了传统遥感变化检测无法上下文化像素级变化及缺乏交互式用户查询的问题。提出的ChangeChat模型是首个专为遥感变化分析设计的双时相视觉-语言模型,利用多模态指令调优来处理复杂查询。实验结果表明,ChangeChat在特定任务上表现优于当前最先进的方法,并在用户交互方面具有显著优势。
Sep, 2024
本研究针对现有大型多模态模型在遥感图像内容描述中的不足,提出了一种新的变化描述指令数据集。这种数据集能够有效微调模型,从而提升对双时相遥感图像变化的描述能力,实验表明经过微调的LLaVA-1.5模型在该任务上表现显著提升。
Sep, 2024