Apr, 2021

GraghVQA: 基于语言引导的图神经网络用于基于图像的视觉问答

TL;DR本研究提出了一种基于场景图的自然语言问答模型GraphVQA,该模型采用语言引导的图神经网络,并使用节点间的多次信息传递来翻译和执行自然语言问题。我们探讨了GraphVQA框架的设计空间,并讨论了不同设计选择的权衡。在GQA数据集上的实验证明,GraphVQA明显优于现有模型(88.43%对94.78%)。