SpectralGPT: 光谱基础模型

Nov, 2023

SpectralGPT: Spectral Foundation Model

Danfeng Hong, Bing Zhang, Xuyang Li, Yuxuan Li, Chenyu Li...

TL;DR本研究提出了首个通用遥感（RS）基础模型SpectralGPT，使用一种新颖的3D生成预训练变压器（GPT）来处理光谱RS图像，实现了在空间光谱耦合、光谱顺序模式捕捉及大规模RS大数据利用等方面的显著性能提升，对于实现地球科学领域中的光谱RS大数据应用具有巨大潜力。

Abstract

The foundation model has recently garnered significant attention due to its potential to revolutionize the field of visual representation learning in a self-supervised manner. While most foundation models are tailored to effectively process RGB images for various visual tasks, there is

发现论文，激发创造

遥感图像亿级基础模型

本文研究了模型参数数量增加对远程遥感领域中基础模型在旋转物体检测和语义分割等下游任务性能的影响，并通过实验验证了模型参数数量的增加可以提升模型性能和数据效率，进而提出了一种有效的基于视觉变换器进行扩展和微调的远程遥感领域的方法。

Apr, 2023

RSGPT：遥感视觉语言模型与基准

大规模语言模型的出现显著推动了人工智能的快速发展，并引发了人工智能2.0的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而，目前的研究主要集中在视觉识别任务上，缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像-文本数据集，这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），用于促进RS领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同，RSICap包括2,585个人工注释的字幕，具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述，包括场景描述（例如居住区、机场或农田）以及对象信息（例如颜色、形状、数量、绝对位置等）。为了促进在RS领域中对视觉语言模型的评估，我们还提供了一个基准评估数据集RSIEval，它包括人工注释的字幕和视觉问答对，可以全面评估在RS背景下的视觉语言模型。

Jul, 2023

DiffusionSat：卫星遥感图像的生成基础模型

DiffusionSat是迄今为止最大的生成基础模型，使用公开可获得的大型高分辨率遥感数据集进行训练，实现对多个生成任务的解决，包括时间生成、多光谱输入的超分辨率和修复。同时它在卫星图像生成方面优于以前的最先进方法，也是第一个针对卫星图像的大规模生成基础模型。

Dec, 2023

MTP: 通过多任务预训练推进遥感基础模型

本研究基于共享编码器和任务特定解码器架构，对遥感基础模型进行多任务监督预训练，包括语义分割、实例分割和旋转目标检测。随后在不同的遥感下游任务上对预训练模型进行微调，并通过14个数据集的广泛实验验证了我们模型相对于同样规模的现有模型的优越性以及与更大型的最先进模型的竞争性表现，从而验证了多任务预训练的有效性。

Mar, 2024

基础模型的有效时机：利用多光谱图像进行像素级分类的适用性研究

基础模型在遥感任务中的适用性取决于自监督学习任务与实际下游任务的一致性，而传统机器学习模型在某些场景下表现得更好，尤其是在纹理不适用于分类的任务中。

Apr, 2024

RS-GPT4V：一份用于遥感图像理解的统一多模态指令跟随数据集

远程传感图像智能理解模型正在经历一个深刻的新范式转变，即从学习域模型的范式转变为先学习预训练的通用基础模型，然后再进行自适应域模型的范式。在新的自适应域模型范式下，过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务：1)泛化性：训练模型学习多个任务之间的共享知识，并适应不同的任务；2)理解复杂场景：训练模型理解感兴趣对象的细粒度属性，并能用自然语言描述场景；3)推理能力：训练模型能够实现高层次的视觉推理。本文设计了一个由GPT-4V和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集，我们称之为RS-GPT4V。为了实现泛化性，我们使用了由GPT-4V通过指令跟踪引导推导出来的（问题，答案）对来统一诸如字幕和定位等任务；为了实现复杂场景，我们提出了一种具有局部策略的分层指令描述方式，描述了对象的细粒度属性和它们的空间关系，并具有全局策略将所有局部信息集成以生成详细的指令描述；为了实现推理能力，我们设计了多轮问答对来为模型提供推理能力。实证结果表明，通过RS-GPT4V微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取：https://example.com

Jun, 2024

遥感中的人工智能基础模型：一项综述

本研究针对遥感领域中人工智能基础模型的应用进行了全面综述，填补了现有文献在2021年6月至2024年6月之间发布的模型分析中的空白。论文提出了新的见解，特别强调自监督学习等预训练方法对提升模型性能和稳健性的关键作用，以及为遥感任务（如场景分类和目标检测）带来的显著进展和未来研究方向。

Aug, 2024

谱地球：大规模训练高光谱基础模型

本研究解决了高光谱成像（HSI）领域缺乏全面且具有全球代表性的高光谱数据集的问题。我们提出了SpectralEarth，一个大型多时相数据集，旨在通过自监督学习算法预训练高光谱基础模型，显著提高了不同任务和传感器中的模型通用性和计算效率。该数据集、模型和源代码将公开发布，推动高光谱成像的进一步研究与应用。

Aug, 2024

遥感与地球观测的基础模型：综述

本研究探讨了遥感领域面临的重要挑战，特别是在复杂的地球环境和多样的传感器模态下的发展需求。文章提出了遥感基础模型（RSFM）的概念，并系统地回顾了现有的研究，评估了这些模型的性能及其对地球观测任务的潜在影响，为未来研究方向提供了指导。

Oct, 2024

MMM-RS：一种用于文本到图像生成的多模态、多GSD、多场景遥感数据集及基准

本研究解决了生成多样化遥感图像中的挑战，尤其在尺度和视角方面与普通图像的显著差异。作者提出了一种多模态、多GSD、多场景的遥感数据集（MMM-RS）及基准，通过大规模预训练的视觉语言模型生成文本提示，构建了约210万对信息丰富的文本图像对。实验结果表明，MMM-RS数据集可以有效支持扩散模型生成多样化的遥感图像，适用于不同的模态、场景和气候条件。

Oct, 2024