Apr, 2018

视觉问答中的问题类型引导注意力机制

TL;DR本文提出了一个名为 Question Type-guided Attention (QTA) 的方法,利用问题类型信息动态平衡从 ResNet 和 Faster R-CNN 网络中分别提取的自下而上和自上而下的视觉特征。在 TDIUC 数据集上进行了多项输入实验,并显示 QTA 显著提高了多个问题类型类别的性能,例如 “活动识别”、“效用” 和 “计数”。添加 QTA 后,我们在最先进的 MCB 模型上实现了 3%的总体准确度提高。最后,我们提出了一个多任务扩展以预测问题类型,在缺少问题类型的应用程序中推广 QTA,性能损失最小。