Jun, 2016

联合损失最小化训练具有循环应答单元的VQA模型

TL;DR本文提出了一种基于循环深度神经网络的视觉问答算法,其中每个模块都对应着一个自身具备注意机制的完整的回答单元;该网络的优化基于所有单元汇聚起来的损失函数,同时这些单元共享模型参数,并接收不同信息来计算注意概率。实验结果表明,该算法在 VQA 数据集上的性能优于其他多步注意力机制。