NIPSJul, 2017

通过语言调节早期视觉处理

TL;DR本文提出一种新的模型,称之为 MRN,通过在预训练的残差网络(ResNet)中加入 batch normalization 参数对语言嵌入进行调制,显著优化了两个视觉问答任务的结果,并表明从视觉处理的早期阶段调制有益。