May, 2022
VQA-GNN:用多模态语义图推理进行视觉问答
VQA-GNN: Reasoning with Multimodal Semantic Graph for Visual Question Answering
Yanan Wang, Michihiro Yasunaga, Hongyu Ren, Shinya Wada, Jure Leskovec
TL;DR本文介绍了 Visual Question Answering——Graph Neural Network 模型,用于解决视觉理解中的概念层次推理问题,与现有模型相比,该模型将图像级别信息和概念知识进行了统一,并在 VCR 任务中取得了优于 Trans-VL 模型的最佳结果。此外,该模型还提供了跨视觉和文本知识领域的可解释性。