Feb, 2024

用于标题和检索遥感图像的大规模语言模型

TL;DR本研究提出了RS-CapRet,一种远程感知任务的视觉和语言方法,主要用于图像字幕生成和文本-图像检索。通过对远程感知图像进行对比性语言-图像预训练,我们将高性能大型解码器语言模型与适应远程感知图像的图像编码器结合使用。RS-CapRet能够为远程感知图像生成描述,并能够根据文本描述检索图像,以实现与现有方法相媲美的性能。定性结果表明,RS-CapRet能够有效利用预训练的大型语言模型描述远程感知图像,并能够处理图像和文本的交错序列对话。