Aug, 2017

视觉问答的结构型注意力

TL;DR本文提出通过构建基于网格结构条件随机场上的多变量分布的视觉注意力模型来有效地编码复杂的跨区域关系,并将迭代推理算法转换成端到端的神经网络层,该模型在3个数据集上的实验评估结果表明,它超过了新发布的CLEVR数据集的最佳基线模型9.5%,并超过了VQA数据集上最佳发布模型1.25%。