EMNLPSep, 2018

级联互相调制的视觉推理

TL;DRCMM 是一种端到端的视觉推理模型,通过特征逐步的线性调制 (FiLM) 技术实现了问答过程中的文本 / 视觉互动,实验结果表明 CMM 在视觉推理问题上达到了最新的最优性能。