Apr, 2023
多模态问答的多模态图形转换器
Multimodal Graph Transformer for Multimodal Question Answering
Xuehai He, Xin Eric Wang
TL;DR本文提出一种多模态图变换器,它利用了文本和视觉数据的多模态信息,并通过结构化学习和图神经网络的方法对自注意力进行约束以提高推理能力,适用于需要跨多个模态执行推理的问题回答任务。我们通过在 GQA,VQAv2 和 MultiModalQA 数据集上进行实验来验证这种方法的有效性,表明多模态图变换器优于 Transformer 模型基线。