May, 2017
MUTAN: 视觉问答的多模态 Tucker 融合
MUTAN: Multimodal Tucker Fusion for Visual Question Answering
Hedi Ben-younes, Rémi Cadene, Matthieu Cord, Nicolas Thome
TL;DR本研究介绍了一种名为 MUTAN 的多模态张量分解方法,它可以有效地参数化视觉和文本表示之间的双线性交互作用,并引入低秩矩阵分解以限制交互秩。实验结果表明,该方法在视觉问答任务中具有较高的准确性。