BriefGPT.xyz
Aug, 2020
图像集上的视觉问答
Visual Question Answering on Image Sets
HTML
PDF
Ankan Bansal, Yuting Zhang, Rama Chellappa
TL;DR
该研究介绍了一种称为ISVQA的任务,即将自然语言问题和一组图片作为输入,并旨在根据图像的内容回答问题。此外,该研究还引入了两个在室内和室外场景中的ISVQA数据集,并分析了它们的各种属性。研究还构建了新的基线模型以探究该领域的新的研究挑战。
Abstract
We introduce the task of
image-set visual question answering
(ISVQA), which generalizes the commonly studied single-image VQA problem to
multi-image settings
. Taking a natural language question and a set of image
→