Apr, 2018

通过密集对称共同注意力改进视觉与语言表示的融合用于视觉问答

TL;DR本文提出了一种基于多步交互和注意力机制的简单且完全对称的网络结构方案,用于解决视觉问答中视觉和语言特征的融合问题,并取得了新的最优结果,而提出的注意力机制也能够生成合理的注意力图从而正确预测答案。