AAAIDec, 2023

基于关系推理的遥感图像视觉问答:朝向可查询地球的方向发展

TL;DR基于城市规划需求,我们开发了一个多模态多任务的 VQA 数据集(EarthVQA),旨在推动基于关系推理的判断、计数和综合分析。SOBA 框架以物体为中心,提出了一个语义物体感知的方法,通过对象语义生成和对象引导的注意力,以及双向交叉注意力,对复杂关系推理进行了先进的视觉问答模型优化。实验证明,SOBA 优于现有的通用和遥感方法,该数据集和框架为地球视觉的复杂分析提供了一个强大的基准。