H2RSVLM：面向有益诚实的遥感大视觉语言模型

Mar, 2024

H2RSVLM：面向有益诚实的遥感大视觉语言模型

H2RSVLM: Towards Helpful and Honest Remote Sensing Large Vision Language Model

Chao Pang, Jiang Wu, Jiayu Li, Yi Liu, Jiaxing Sun...

TL;DR该研究构建了包含 1.4 百万图像 - 字幕对的大规模高质量细节遥感图像数据集 HqDC-1.4M，提供了对遥感图像更好的理解并显著提高了模型的空间感知能力；同时，开发了 RSSA 数据集，通过将无法回答的问题纳入典型的遥感视觉问答任务中，有效改善了模型输出的真实性和幻觉现象，增强了遥感视觉语言模型的诚实度；基于这些数据集，提出了 H2RSVLM，该模型在多个公共遥感数据集上取得了出色的性能，并能识别和拒绝无法回答的问题，有效减轻了错误的生成。

Abstract

The generic large Vision-Language Models (VLMs) is rapidly developing, but still perform poorly in Remote Sensing (RS) domain, which is due to the unique and specialized nature of rs imagery and the comparatively limited spatial perception of current VLMs. Existing Remote Sensing speci

remote sensing vision language model rs imagery rsvlm hqdc-1.4m dataset rssa dataset

发现论文，激发创造

RSGPT：遥感视觉语言模型与基准

大规模语言模型的出现显著推动了人工智能的快速发展，并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而，目前的研究主要集中在视觉识别任务上，缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集，这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同，RSICap 包括 2,585 个人工注释的字幕，具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述，包括场景描述（例如居住区、机场或农田）以及对象信息（例如颜色、形状、数量、绝对位置等）。为了促进在 RS 领域中对视觉语言模型的评估，我们还提供了一个基准评估数据集 RSIEval，它包括人工注释的字幕和视觉问答对，可以全面评估在 RS 背景下的视觉语言模型。

Jul, 2023

LHRS-Bot：利用 VGI 增强的大型多模态语言模型强化遥感

利用大规模遥感图像 - 文本数据集和遥感特定指令数据集，我们构建了针对遥感图像理解的多模态大语言模型（MLLM）LHRS-Bot，通过新颖的多层次视觉 - 语言对齐策略和课程学习方法，展现了在遥感领域中深入理解遥感图像和进行细致推理的能力。

Feb, 2024

RS5M：一种用于遥感视觉语言的大规模数据集和基础模型

本文提出了一种新的框架，包括领域基础模型（DFM），该模型缩小了通用基础模型（GFM）和特定领域下游任务之间的差距，并通过预训练的 VLM 将筛选后的遥感图像与英文描述进行配对，构成了第一个大规模遥感图像 - 文本匹配数据集。在该数据集上的实验结果表明，使用上述数据集和提出的 DFM 方法的零样本分类和视觉语言检索任务的性能都较好，并且 RS Stable Diffusion 模型的训练也取得了成功的结果。

Jun, 2023

GeoChat: 用于遥感的基于大规模视觉语言模型的实体化系统

GeoChat 是第一个多功能的遥感视觉语言模型，它具备高分辨率遥感图像的多任务对话能力，并能将对象视觉上地与其空间坐标相关联，通过扩展现有多样的遥感数据集中的图像 - 文本对生成了一个新的领域特定的多模态指令跟随数据集，成功解决了现有模型在遥感领域的局限性，并在各个遥感任务上展示了强大的零样本性能。

Nov, 2023

用于标题和检索遥感图像的大规模语言模型

本研究提出了 RS-CapRet，一种远程感知任务的视觉和语言方法，主要用于图像字幕生成和文本 - 图像检索。通过对远程感知图像进行对比性语言 - 图像预训练，我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-CapRet 能够为远程感知图像生成描述，并能够根据文本描述检索图像，以实现与现有方法相媲美的性能。定性结果表明，RS-CapRet 能够有效利用预训练的大型语言模型描述远程感知图像，并能够处理图像和文本的交错序列对话。

Feb, 2024

RS-Agent: 智能代理自动化遥感任务

提出使用大型语言模型（LLM）驱动的遥感智能代理 RS-Agent 来解决遥感应用中的复杂问题，通过整合高性能的遥感图像处理工具和利用有力的知识文档回答专业问题，实验结果表明 RS-Agent 在场景分类等任务中具有出色性能。

Jun, 2024

RS-GPT4V：一份用于遥感图像理解的统一多模态指令跟随数据集

远程传感图像智能理解模型正在经历一个深刻的新范式转变，即从学习域模型的范式转变为先学习预训练的通用基础模型，然后再进行自适应域模型的范式。在新的自适应域模型范式下，过去十年中已取得远程传感图像智能理解进展的旧数据集不再适用于全新任务。我们认为必须设计一个具备以下特征的新数据集来轻化任务：1) 泛化性：训练模型学习多个任务之间的共享知识，并适应不同的任务；2) 理解复杂场景：训练模型理解感兴趣对象的细粒度属性，并能用自然语言描述场景；3) 推理能力：训练模型能够实现高层次的视觉推理。本文设计了一个由 GPT-4V 和现有数据集共同创建的高质量、多样化、统一的多模式指令跟踪数据集，我们称之为 RS-GPT4V。为了实现泛化性，我们使用了由 GPT-4V 通过指令跟踪引导推导出来的（问题，答案）对来统一诸如字幕和定位等任务；为了实现复杂场景，我们提出了一种具有局部策略的分层指令描述方式，描述了对象的细粒度属性和它们的空间关系，并具有全局策略将所有局部信息集成以生成详细的指令描述；为了实现推理能力，我们设计了多轮问答对来为模型提供推理能力。实证结果表明，通过 RS-GPT4V 微调的多模态大语言模型能够描述细粒度信息。数据集可在此网址获取：https://example.com

Jun, 2024

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

SkyEyeGPT: 大型语言模型中通过指令调整实现遥感视觉 - 语言任务的统一

SkyEyeGPT 是一个针对远程感知视觉语言理解而设计的统一的多模态大型语言模型，通过对视觉特征与语言域的对齐以及使用 LLM 的 RS 解码器来预测远程感知开放式任务的答案，在 RS 视觉语言任务中表现出卓越的图像级和区域级任务结果。

Jan, 2024

VRSBench：用于遥感图像理解的通用视觉语言基准数据集

我们引入了一个新的基准，旨在推进远程感知图像的通用、大规模的视觉语言模型的发展。

Jun, 2024