多模态基础模型在地理、环境、农业和城市规划应用中的承诺与挑战
通过在多个地理空间子领域进行测试,发现在某些文本模态的地理任务中,基于任务不可知的大型语言模型可以在零样本或少样本学习设置中胜过基于任务特定的全监督模型,但是在其他涉及多种数据模态的地理任务上,现有的基础模型仍然不如基于任务特定的模型表现。因此,通过处理不同的地理数据模态,建议可能性使用能够通过地理对齐来推理各种类型的地理数据的多模态基础模型来应对地理人工智能挑战的多模态特征。
Apr, 2023
本论文研究了一种基于GPT框架的新型深度学习模型Visual ChatGPT在遥感领域图像处理中的应用,成功展示了该模型生成图像文本描述、进行边缘检测和拟合直线等的能力,但也揭示了该模型在遥感图像处理中的局限性和挑战。研究者相信该模型的应用在未来有望将遥感图像处理转变为便利与实际应用机会并存的领域。
Apr, 2023
通过进行一系列实验,我们研究了多模态大型语言模型在地理和地理空间领域的知识和能力,重点关注前沿模型GPT-4V的视觉能力,并与开源模型进行性能比较。我们的方法涉及使用一套地理任务的小规模基准测试这些模型,测试它们在不同难度任务上的能力。分析结果揭示了这些模型的优点,包括超过人类的性能,并揭示了它们的不足之处,提供了它们在地理领域能力的全面视角。为了促进未来模型的比较和评估,我们将公开发布我们的基准测试。
Nov, 2023
GeoChat是第一个多功能的遥感视觉语言模型,它具备高分辨率遥感图像的多任务对话能力,并能将对象视觉上地与其空间坐标相关联,通过扩展现有多样的遥感数据集中的图像-文本对生成了一个新的领域特定的多模态指令跟随数据集,成功解决了现有模型在遥感领域的局限性,并在各个遥感任务上展示了强大的零样本性能。
Nov, 2023
提出了一个先驱性的多模态大型语言模型(MLLM)EarthGPT,该模型集成了各种多传感器遥感图像解释任务,通过构建大规模的多传感器多模态遥感指令追踪数据集MMRS,解决了MLLM在遥感领域缺乏专业知识的问题,并在各种遥感图像解释任务上展现出其卓越的性能,并为开放式推理任务提供了一种多功能的范例。
Jan, 2024
本文全面审查了视觉-语言地理基础模型(VLGFMs),总结和分析了该领域的最新发展,包括VLGFMs的背景、动机、核心技术和应用,以及未来研究方向的洞察、问题和讨论。
Jun, 2024
远程传感图像智能理解模型正在经历一个深刻的新范式转变,即从学习域模型的范式转变为先学习预训练的通用基础模型,然后再进行自适应域模型的范式。在新的自适应域模型范式下,过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务:1)泛化性:训练模型学习多个任务之间的共享知识,并适应不同的任务;2)理解复杂场景:训练模型理解感兴趣对象的细粒度属性,并能用自然语言描述场景;3)推理能力:训练模型能够实现高层次的视觉推理。本文设计了一个由GPT-4V和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集,我们称之为RS-GPT4V。为了实现泛化性,我们使用了由GPT-4V通过指令跟踪引导推导出来的(问题,答案)对来统一诸如字幕和定位等任务;为了实现复杂场景,我们提出了一种具有局部策略的分层指令描述方式,描述了对象的细粒度属性和它们的空间关系,并具有全局策略将所有局部信息集成以生成详细的指令描述;为了实现推理能力,我们设计了多轮问答对来为模型提供推理能力。实证结果表明,通过RS-GPT4V微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取:https://example.com
Jun, 2024
本研究探讨了多模态基础模型在街景影像、建筑环境和室内设计中的应用,揭示了其在长度测量和风格分析等任务上的能力,同时也指出了在详细识别和计数任务中的局限性。研究结果表明,尽管零-shot 学习存在潜力,模型性能依赖于问题领域和影像复杂性,从而为多模态基础模型在实际挑战中的应用提供了新见解。
Aug, 2024
本研究解决了农业领域缺乏有效视觉语言数据的问题,提出了一种利用仅包含视觉数据的农业数据集构建专家调优数据的方法。通过创建70k专家调优数据集AgroInstruct并调优模型AgroGPT,实现了复杂农业对话能力,显著提升了农业概念识别的性能,具有重要的应用潜力。
Oct, 2024