CVPRMar, 2022

MuKEA: 基于多模态知识提取和累积的基于知识的视觉问答

TL;DR本研究提出了一种用于视觉问答的多模态知识表示方法 (MuKEA),通过明确的三元组来关联视觉对象和事实答案,从而构建视觉相关和可解释的多模态知识,该方法可以有效提高对知识的需求的数据集上的表现。