面向视觉-语言地理基础模型:一项调查
通过在多个地理空间子领域进行测试,发现在某些文本模态的地理任务中,基于任务不可知的大型语言模型可以在零样本或少样本学习设置中胜过基于任务特定的全监督模型,但是在其他涉及多种数据模态的地理任务上,现有的基础模型仍然不如基于任务特定的模型表现。因此,通过处理不同的地理数据模态,建议可能性使用能够通过地理对齐来推理各种类型的地理数据的多模态基础模型来应对地理人工智能挑战的多模态特征。
Apr, 2023
本文提出了一种新的框架,包括领域基础模型(DFM),该模型缩小了通用基础模型(GFM)和特定领域下游任务之间的差距,并通过预训练的VLM将筛选后的遥感图像与英文描述进行配对,构成了第一个大规模遥感图像-文本匹配数据集。在该数据集上的实验结果表明,使用上述数据集和提出的DFM方法的零样本分类和视觉语言检索任务的性能都较好,并且RS Stable Diffusion模型的训练也取得了成功的结果。
Jun, 2023
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能2.0的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像-文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进RS领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap包括2,585个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在RS领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在RS背景下的视觉语言模型。
Jul, 2023
GeoChat是第一个多功能的遥感视觉语言模型,它具备高分辨率遥感图像的多任务对话能力,并能将对象视觉上地与其空间坐标相关联,通过扩展现有多样的遥感数据集中的图像-文本对生成了一个新的领域特定的多模态指令跟随数据集,成功解决了现有模型在遥感领域的局限性,并在各个遥感任务上展示了强大的零样本性能。
Nov, 2023
我们提出了一种基于视觉语言模型训练遥感图像的方法,无需使用任何文本注释。我们的关键洞察力是使用地面上的互联网图像作为遥感图像和语言之间的中介。通过使用大量的配对互联网和卫星图像,我们训练了遥感图像的图像编码器与CLIP的图像编码器对齐。我们的无监督方法使得能够训练一种新型的大规模遥感图像视觉语言模型(VLM),适用于两种不同分辨率的遥感图像。我们展示了这些VLM在卫星图像的零样本、开放词汇的图像分类、检索、分割和视觉问答任务中的能力。我们的无需文本注释的VLM在这些任务的每个方面都优于现有有监督训练的VLM,分类任务上最高提升了20%,分割任务上提升了80%。
Dec, 2023
预训练基础模型的出现带来了计算机视觉领域的新篇章,其具有鲁棒性和显著的零样本泛化能力。本综述重点探讨了视觉基础模型在生成任务和判别任务方面的可扩展性、熟练度以及诸多方法。同时,我们整理和讨论了促进视觉基础模型开发的广泛资源,并解决了未来研究所面临的挑战。融合生成模型和判别模型是未来创新的重要方向,而将生成模型应用于判别上的初步尝试表明了这种融合的早期阶段。本综述旨在成为学者和从业者的现代汇编,勾勒视觉基础模型的发展轨迹,阐明其多方面的领域。
Dec, 2023
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
本研究解决了遥感领域视觉-语言数据集不足的问题。通过引入图像解码机器学习模型,研究者能够无需人工标注收集约960万对视觉-语言数据集。结果表明,该模型在零样本分类、语义定位和图像-文本检索等下游任务中优于未使用公开数据集的对手,展示了显著的效能提升。
Sep, 2024