遥感中的视觉语言模型:当前进展与未来趋势
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap 包括 2,585 个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在 RS 领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集 RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在 RS 背景下的视觉语言模型。
Jul, 2023
本论文研究了一种基于 GPT 框架的新型深度学习模型 Visual ChatGPT 在遥感领域图像处理中的应用,成功展示了该模型生成图像文本描述、进行边缘检测和拟合直线等的能力,但也揭示了该模型在遥感图像处理中的局限性和挑战。研究者相信该模型的应用在未来有望将遥感图像处理转变为便利与实际应用机会并存的领域。
Apr, 2023
远程感知 ChatGPT 是一个利用 ChatGPT 连接各种基于人工智能的遥感模型来解决复杂解释任务的大型语言模型。
Jan, 2024
本研究提出了 RS-CapRet,一种远程感知任务的视觉和语言方法,主要用于图像字幕生成和文本 - 图像检索。通过对远程感知图像进行对比性语言 - 图像预训练,我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-CapRet 能够为远程感知图像生成描述,并能够根据文本描述检索图像,以实现与现有方法相媲美的性能。定性结果表明,RS-CapRet 能够有效利用预训练的大型语言模型描述远程感知图像,并能够处理图像和文本的交错序列对话。
Feb, 2024
本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息,解决了在有限样本时视觉 - 语言任务的问题,使输出更易于解释。
May, 2023
GeoChat 是第一个多功能的遥感视觉语言模型,它具备高分辨率遥感图像的多任务对话能力,并能将对象视觉上地与其空间坐标相关联,通过扩展现有多样的遥感数据集中的图像 - 文本对生成了一个新的领域特定的多模态指令跟随数据集,成功解决了现有模型在遥感领域的局限性,并在各个遥感任务上展示了强大的零样本性能。
Nov, 2023
SkyEyeGPT 是一个针对远程感知视觉语言理解而设计的统一的多模态大型语言模型,通过对视觉特征与语言域的对齐以及使用 LLM 的 RS 解码器来预测远程感知开放式任务的答案,在 RS 视觉语言任务中表现出卓越的图像级和区域级任务结果。
Jan, 2024
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
利用大规模遥感图像 - 文本数据集和遥感特定指令数据集,我们构建了针对遥感图像理解的多模态大语言模型(MLLM)LHRS-Bot,通过新颖的多层次视觉 - 语言对齐策略和课程学习方法,展现了在遥感领域中深入理解遥感图像和进行细致推理的能力。
Feb, 2024