May, 2022
VQA-GNN:用多模态语义图推理进行视觉问答
VQA-GNN: Reasoning with Multimodal Semantic Graph for Visual Question
Answering
TL;DR本文介绍了Visual Question Answering——Graph Neural Network模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在VCR任务中取得了优于Trans-VL模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。