EMNLPSep, 2021

基于知识的问答弱监督视觉 - 检索 - 阅读模型

TL;DR本篇研究提出了一种基于知识库检索的视觉问答模型,包括视觉知识检索模型和基于分类和提取两种方式的视觉问题回答模型,并探讨了利用文本和图像进行知识检索的多种方法。实验表明,良好的知识检索模型可以显著提高在 OK-VQA 挑战赛上的视觉问题回答模型表现。