Apr, 2018
视觉问答中的问题类型引导注意力机制
Question Type Guided Attention in Visual Question Answering
TL;DR本文提出了一个名为Question Type-guided Attention (QTA)的方法,利用问题类型信息动态平衡从ResNet和Faster R-CNN网络中分别提取的自下而上和自上而下的视觉特征。在TDIUC数据集上进行了多项输入实验,并显示QTA显著提高了多个问题类型类别的性能,例如“活动识别”、“效用”和“计数”。添加QTA后,我们在最先进的MCB模型上实现了3%的总体准确度提高。最后,我们提出了一个多任务扩展以预测问题类型,在缺少问题类型的应用程序中推广QTA,性能损失最小。