ECCVSep, 2018

早期融合和批次规范对 CLEVR 视觉问答中细节的影响

TL;DR本文研究了在 Visual QA 领域中取得强大性能的初馈聚合模型的复杂性,发现了一些架构上的要素对于其性能的关键作用,其中早期的语言 - 视觉融合是最为有效的,为此我们提出了一种称之为 “多模核” 的简单模块,旨在为多模任务提供基本操作。