卫星字幕：大规模语言模型助力标注

Dec, 2023

卫星字幕：大规模语言模型助力标注

Satellite Captioning: Large Language Models to Augment Labeling

Grant Rosario, David Noever

TL;DR通过使用遥感图像领域的 RSICD 数据集中提供的字幕，本文旨在解决字幕数据集中可能存在的信息和沟通缺陷问题，并通过进行 ChatGPT 语法纠正来增加字幕模型的性能准确性。

Abstract

With the growing capabilities of modern object detection networks and datasets to train them, it has gotten more straightforward and, importantly, less laborious to get up and running with a model that is quite adept at detecting any number of various objects. However, while image data

object detection networks textual caption datasets language differences remote sensing images chatgpt grammar correction

发现论文，激发创造

基于大型语言模型的自动卫星图像描述生成

自动遥感图像字幕生成技术与大规模数据集、大型语言模型、遥感技术和基准模型等相关，能够解决遥感图像字幕生成领域的瓶颈问题。

Oct, 2023

RSGPT：遥感视觉语言模型与基准

大规模语言模型的出现显著推动了人工智能的快速发展，并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而，目前的研究主要集中在视觉识别任务上，缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集，这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集（RSICap），用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同，RSICap 包括 2,585 个人工注释的字幕，具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述，包括场景描述（例如居住区、机场或农田）以及对象信息（例如颜色、形状、数量、绝对位置等）。为了促进在 RS 领域中对视觉语言模型的评估，我们还提供了一个基准评估数据集 RSIEval，它包括人工注释的字幕和视觉问答对，可以全面评估在 RS 背景下的视觉语言模型。

Jul, 2023

用于标题和检索遥感图像的大规模语言模型

本研究提出了 RS-CapRet，一种远程感知任务的视觉和语言方法，主要用于图像字幕生成和文本 - 图像检索。通过对远程感知图像进行对比性语言 - 图像预训练，我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-CapRet 能够为远程感知图像生成描述，并能够根据文本描述检索图像，以实现与现有方法相媲美的性能。定性结果表明，RS-CapRet 能够有效利用预训练的大型语言模型描述远程感知图像，并能够处理图像和文本的交错序列对话。

Feb, 2024

探索遥感图像描述生成的模型和数据

本研究旨在探讨如何准确、灵活地描述遥感图像。通过提出一些标注指导和构建大规模航空图像数据集，研究证明采用生成语言描述的方式可以全面地描述遥感图像内容。

Dec, 2017

遥感中的视觉语言模型：当前进展与未来趋势

本文针对远程感知领域，综述图像与文字有关的任务及相关研究领域中，采用视觉语言模型的最新进展和挑战，以及未来的发展方向。

May, 2023

ChatEarthNet: 用于遥感的全球规模高质量图像 - 文本数据集

我们提供了一个全球范围、高质量、多样性广泛、描述详细的图像 - 文本数据集 ChatEarthNet，其中包含由 ChatGPT-3.5 生成的 163,488 个图像 - 文本对及额外的由 ChatGPT-4V 生成的 10,000 个图像 - 文本对，这对于远程感知的视觉语言基础模型的训练和大型视觉语言模型的评估具有重要潜力，并将供公众使用。

Feb, 2024

TextCaps：一种带有阅读理解的图像字幕数据集

该研究创建了一个新的数据集 TextCaps，涉及 28k 张图片和 145k 个标题，用于挑战计算机视觉模型识别图像中的文本，与视觉环境进行关联，并决定要复制或释义文本的哪个部分。研究表明，这个新的数据集提供了许多前所未有的技术挑战。

Mar, 2020

现实世界图像描述和场景识别的全面分析

图像字幕生成是一项计算机视觉任务，涉及为图像生成自然语言描述，本文评估了基于不同编码机制、语言解码器和训练过程构建的多种模型在真实世界图像字幕生成方面的性能。

Aug, 2023

通过图像描述的方式改进多模态数据集

通过探索不同的混合策略，我们发现合成字幕能够增加网络爬取数据点的效用，并且在 38 个任务中，对于 ImageNet 表现比 DataComp 基准提高 2%，平均值提高 4%。此外，我们发现使用合成字幕进行多模态训练时，标准图像字幕基准的性能并不可靠，还对 1.28B 图像 - 文本对的大规模分析提供了对合成文本的局限性和随着训练数据数量增加图像筛选的重要性的见解。

Jul, 2023

更好地利用图片描述提升图像字幕质量

本文提出了一种新的图像字幕架构，通过构建以字幕为导向的视觉关系图以及利用弱监督多实例学习引入有益的归纳偏差来增强图像表示和字幕生成，实现多模态问题解决和优化。在 MSCOCO 数据集上进行广泛实验，证明该框架在多种评估指标下取得了业内最优表现。

Jun, 2020