CVPRNov, 2015

Visual7W:基于图像的问答系统

TL;DR通过物体级别的 grounding,在图像中建立了文本描述与图像区域的语义联系,提出了一种新型维度的视觉问答任务,并使用多个基线模型和带有空间注意力机制的 LSTM 模型来解决该任务。