Remote Sensing ChatGPT: 使用 ChatGPT 和视觉模型解决遥感任务
本论文研究了一种基于GPT框架的新型深度学习模型Visual ChatGPT在遥感领域图像处理中的应用,成功展示了该模型生成图像文本描述、进行边缘检测和拟合直线等的能力,但也揭示了该模型在遥感图像处理中的局限性和挑战。研究者相信该模型的应用在未来有望将遥感图像处理转变为便利与实际应用机会并存的领域。
Apr, 2023
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能2.0的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像-文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进RS领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap包括2,585个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在RS领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在RS背景下的视觉语言模型。
Jul, 2023
GeoChat是第一个多功能的遥感视觉语言模型,它具备高分辨率遥感图像的多任务对话能力,并能将对象视觉上地与其空间坐标相关联,通过扩展现有多样的遥感数据集中的图像-文本对生成了一个新的领域特定的多模态指令跟随数据集,成功解决了现有模型在遥感领域的局限性,并在各个遥感任务上展示了强大的零样本性能。
Nov, 2023
SkyEyeGPT是一个针对远程感知视觉语言理解而设计的统一的多模态大型语言模型,通过对视觉特征与语言域的对齐以及使用LLM的RS解码器来预测远程感知开放式任务的答案,在RS视觉语言任务中表现出卓越的图像级和区域级任务结果。
Jan, 2024
提出了一个先驱性的多模态大型语言模型(MLLM)EarthGPT,该模型集成了各种多传感器遥感图像解释任务,通过构建大规模的多传感器多模态遥感指令追踪数据集MMRS,解决了MLLM在遥感领域缺乏专业知识的问题,并在各种遥感图像解释任务上展现出其卓越的性能,并为开放式推理任务提供了一种多功能的范例。
Jan, 2024
我们提供了一个全球范围、高质量、多样性广泛、描述详细的图像-文本数据集ChatEarthNet,其中包含由ChatGPT-3.5生成的163,488个图像-文本对及额外的由ChatGPT-4V生成的10,000个图像-文本对,这对于远程感知的视觉语言基础模型的训练和大型视觉语言模型的评估具有重要潜力,并将供公众使用。
Feb, 2024
提出使用大型语言模型(LLM)驱动的遥感智能代理RS-Agent来解决遥感应用中的复杂问题,通过整合高性能的遥感图像处理工具和利用有力的知识文档回答专业问题,实验结果表明RS-Agent在场景分类等任务中具有出色性能。
Jun, 2024
通过FIT-RS数据集,提出了一种用于远程感知的大规模指令调整数据集,通过评估复杂关系理解能力并建立FIT-RSRC基准,以FIT-RSFG基准为依据,提出了SkySenseGPT模型来增强远程感知大规模细粒度数据源与关系理解能力。
Jun, 2024