CVPRNov, 2015

视觉问答的焦点区域:何处寻找

TL;DR本文提出一种方法,通过选择与基于文本的查询相关的图像区域来学习回答视觉问题。该方法在回答 ' 什么颜色 ' 等需要评估特定位置以及 ' 什么房间 ' 等需要选择性地识别信息图像区域的问题方面展示出显著的提升。我们的模型在 VQA 数据集上进行测试,这是目前为止最大的人工注释视觉问题回答数据集。