Mar, 2019

面向视觉问答的关系感知图注意力网络

TL;DR本研究提出了一种基于关系感知图形注意力网络(ReGAT)的VQA模型,该模型通过图形注意机制将每个图像编码为图形,再通过多类型的物体关系建模,以学习问题自适应的关系表示,并在VQA 2.0和VQA-CP v2数据集上优于现有的VQA方法,同时具有通用的关系编码器功能。