CVPRMar, 2017

VQABQ:基础问题驱动的视觉问答

TL;DR本研究提出了一种针对图像和问题的视觉问答算法,包含两个主要模块:第一个模块将问题作为输入,输出主要给定问题的基础问题;第二个模块将问题和图像作为输入,输出问题的基于文本的答案。研究将基础问题生成问题视为 LASSO 优化问题,并提出一种标准来利用这些基础问题帮助回答主要问题。经过在具有挑战性的 VQA 数据集上的验证,本研究的方法实现了最先进的准确性,在开放式任务中达到了 60.34%的准确度。