Oct, 2022
遥感中的视觉问答多模态融合变压器
Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing
Tim Siebert, Kai Norman Clasen, Mahdyar Ravanbakhsh, Begüm Demir
TL;DR该文提出了一种多模态变压器架构,名为 VBFusion,用于弥补当前 VQA 系统融合模态间表示不足的问题,并通过对 Sentinel-2 图像进行多波段的研究使得其具备更强的描述远程感应图像内容的能力。