Qi Wu, Peng Wang, Chunhua Shen, Anton van den Hengel, Anthony Dick
TL;DR提出了一种结合图像内容的内部表示和来自广义知识库提取的信息以回答广泛的基于图像的问题的视觉问答方法,可回答自然语言提出的关于图像内容以外信息的问题,显示在 Toronto COCO-QA 和 MS COCO-VQA 数据集上获得最佳结果。
Abstract
We propose a method for visual question answering which combines an internal representation of the content of an image with information extracted from a general knowledge base to answer a broad range of image-bas