基于大型语言模型的自动卫星图像描述生成

Oct, 2023

基于大型语言模型的自动卫星图像描述生成

Towards Automatic Satellite Images Captions Generation Using Large Language Models

Yingxu He, Qiqi Sun

TL;DR自动遥感图像字幕生成技术与大规模数据集、大型语言模型、遥感技术和基准模型等相关，能够解决遥感图像字幕生成领域的瓶颈问题。

Abstract

automatic image captioning is a promising technique for conveying visual information using natural language. It can benefit various tasks in satellite remote sensing, such as environmental monitoring, resource ma

automatic image captioning large-scale image-caption datasets large language models remote sensing benchmark model

发现论文，激发创造

卫星字幕：大规模语言模型助力标注

通过使用遥感图像领域的 RSICD 数据集中提供的字幕，本文旨在解决字幕数据集中可能存在的信息和沟通缺陷问题，并通过进行 ChatGPT 语法纠正来增加字幕模型的性能准确性。

Dec, 2023

用于标题和检索遥感图像的大规模语言模型

本研究提出了 RS-CapRet，一种远程感知任务的视觉和语言方法，主要用于图像字幕生成和文本 - 图像检索。通过对远程感知图像进行对比性语言 - 图像预训练，我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-CapRet 能够为远程感知图像生成描述，并能够根据文本描述检索图像，以实现与现有方法相媲美的性能。定性结果表明，RS-CapRet 能够有效利用预训练的大型语言模型描述远程感知图像，并能够处理图像和文本的交错序列对话。

Feb, 2024

RSGPT：遥感视觉语言模型与基准

大规模语言模型的出现显著推动了人工智能的快速发展，并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而，目前的研究主要集中在视觉识别任务上，缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集，这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同，RSICap 包括 2,585 个人工注释的字幕，具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述，包括场景描述（例如居住区、机场或农田）以及对象信息（例如颜色、形状、数量、绝对位置等）。为了促进在 RS 领域中对视觉语言模型的评估，我们还提供了一个基准评估数据集 RSIEval，它包括人工注释的字幕和视觉问答对，可以全面评估在 RS 背景下的视觉语言模型。

Jul, 2023

探索遥感图像描述生成的模型和数据

本研究旨在探讨如何准确、灵活地描述遥感图像。通过提出一些标注指导和构建大规模航空图像数据集，研究证明采用生成语言描述的方式可以全面地描述遥感图像内容。

Dec, 2017

远程感知变化字幕的注意力网络

通过使用自然语言处理技术直接学习和分析遥感图像，本研究提出使用 Chg2Cap 网络处理双时相遥感图像变化标注任务，该网络包括 Siamese CNN 特征提取器、注重变化相关特征的自注意力编码器和 Transformer 生成器，并在两个典型遥感数据集上经过充分实验验证。

Apr, 2023

遥感中的视觉语言模型：当前进展与未来趋势

本文针对远程感知领域，综述图像与文字有关的任务及相关研究领域中，采用视觉语言模型的最新进展和挑战，以及未来的发展方向。

May, 2023

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。