基于大型语言模型的自动卫星图像描述生成
通过使用遥感图像领域的 RSICD 数据集中提供的字幕,本文旨在解决字幕数据集中可能存在的信息和沟通缺陷问题,并通过进行 ChatGPT 语法纠正来增加字幕模型的性能准确性。
Dec, 2023
本研究提出了 RS-CapRet,一种远程感知任务的视觉和语言方法,主要用于图像字幕生成和文本 - 图像检索。通过对远程感知图像进行对比性语言 - 图像预训练,我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-CapRet 能够为远程感知图像生成描述,并能够根据文本描述检索图像,以实现与现有方法相媲美的性能。定性结果表明,RS-CapRet 能够有效利用预训练的大型语言模型描述远程感知图像,并能够处理图像和文本的交错序列对话。
Feb, 2024
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap 包括 2,585 个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在 RS 领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集 RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在 RS 背景下的视觉语言模型。
Jul, 2023
本研究旨在探讨如何准确、灵活地描述遥感图像。通过提出一些标注指导和构建大规模航空图像数据集,研究证明采用生成语言描述的方式可以全面地描述遥感图像内容。
Dec, 2017
通过使用自然语言处理技术直接学习和分析遥感图像,本研究提出使用 Chg2Cap 网络处理双时相遥感图像变化标注任务,该网络包括 Siamese CNN 特征提取器、注重变化相关特征的自注意力编码器和 Transformer 生成器,并在两个典型遥感数据集上经过充分实验验证。
Apr, 2023
本文提出了一种用于创建图像标题的方法,通过采用额外的视觉信息,包括对象检测器、识别器等来丰富标题,经大型语言模型融合,生成全面的图像描述。实验证明,该方法有效,所提供的数据集显着提高了图像 - 文本检索。
May, 2023
本论文提出了一种新方法,使用大型语言模型从文本描述和上下文中生成图像字幕,而无需直接处理图像,经调优后,该方法在 CIDEr 指标上优于目前最先进的图像 - 文本对齐模型,解决了使用深度学习模型进行图像字幕生成时遭遇的一些难题。
Jun, 2023