Aug, 2020

图像集上的视觉问答

TL;DR该研究介绍了一种称为ISVQA的任务,即将自然语言问题和一组图片作为输入,并旨在根据图像的内容回答问题。此外,该研究还引入了两个在室内和室外场景中的ISVQA数据集,并分析了它们的各种属性。研究还构建了新的基线模型以探究该领域的新的研究挑战。