EMNLPJun, 2016

多模态紧凑双线性池化用于视觉问答和视觉定位

TL;DR本文探讨了利用从大型语言或视觉数据集训练得到的向量表示来建模文本或视觉信息,提出并评价了 Multimodal Compact Bilinear pooling (MCB) 的表现优于传统的多模态平均池化方法,并通过在视觉问答和定位任务中应用,佐证出 MCB 的有效性和高表达性。