Nov, 2017

多模态乘积特征嵌入共同关注自由形式区域和检测用于视觉问答

TL;DR本篇研究提出了一种基于注意力机制和深度神经网络的视觉问答方法,通过多模态特征嵌入策略,联合关注自由区域和检测框区域,实现更准确的图像问答。在COCO-QA和VQA数据集上测试,结果表明该方法优于现有方法。