Mar, 2024

H2RSVLM:面向有益诚实的遥感大视觉语言模型

TL;DR该研究构建了包含 1.4 百万图像 - 字幕对的大规模高质量细节遥感图像数据集 HqDC-1.4M,提供了对遥感图像更好的理解并显著提高了模型的空间感知能力;同时,开发了 RSSA 数据集,通过将无法回答的问题纳入典型的遥感视觉问答任务中,有效改善了模型输出的真实性和幻觉现象,增强了遥感视觉语言模型的诚实度;基于这些数据集,提出了 H2RSVLM,该模型在多个公共遥感数据集上取得了出色的性能,并能识别和拒绝无法回答的问题,有效减轻了错误的生成。