May, 2016

视觉问答的层次化问题-图像协同注意力

TL;DR通过建立视觉注意力和问题注意力相结合的协作注意力模型,使用新型一维卷积神经网络来在分层结构中处理问题,从而使VQA数据集上的性能从60.3%提高到60.5%,并且在COCO-QA数据集上从61.6%提高到63.3%。在加入 ResNet 模型后,VQA 指标进一步提升至 62.1%,COCO-QA 指标达到 65.4%。