May, 2017

MUTAN: 视觉问答的多模态 Tucker 融合

TL;DR本研究介绍了一种名为 MUTAN 的多模态张量分解方法,它可以有效地参数化视觉和文本表示之间的双线性交互作用,并引入低秩矩阵分解以限制交互秩。实验结果表明,该方法在视觉问答任务中具有较高的准确性。