Jun, 2016

多模态残差学习用于视觉问答

TL;DR介绍了Multimodal Residual Networks(MRN),一种通过联合残差映射学习视觉问答的多模态系统,利用注意力模型的残差学习来将视觉和语言信息联合表示,获得了Visual QA数据集开放式和多项选择任务的最先进结果,并通过反向传播算法引入了一种可视化联合表示的注意力效果的新方法。