May, 2024

基于先验指令的遥感图像 - 文本检索的图像表征学习

TL;DR本研究介绍了一种基于先验指导的远程感知图像 - 文本检索学习范式,通过利用先验知识进行自适应学习,设计了 PIR-ITR 框架解决视觉语言理解任务中语义噪声问题。同时,为了进一步改进开放域检索性能,提出了 PIR-CLIP 框架,利用领域特定的 CLIP 模型解决远程感知视觉 - 语言表示中的语义噪声问题。通过综合实验验证,PIR 能够增强视觉和文本表示,并在两个基准数据集 RSICD 和 RSITMD 上优于封闭域和开放域检索的最先进方法。