NIPSMay, 2016

视觉问答的层次化问题 - 图像协同注意力

TL;DR通过建立视觉注意力和问题注意力相结合的协作注意力模型,使用新型一维卷积神经网络来在分层结构中处理问题,从而使 VQA 数据集上的性能从 60.3%提高到 60.5%,并且在 COCO-QA 数据集上从 61.6%提高到 63.3%。在加入 ResNet 模型后,VQA 指标进一步提升至 62.1%,COCO-QA 指标达到 65.4%。