Nov, 2015

视觉问答的组合记忆

TL;DR本文提出了一种直接模拟语言和所有可能的本地图像补丁之间的时态动态的端到端方法,使用注意机制将与单词相关的特征和多个本地补丁上可用的特征融合在一起,并将融合的信息进一步结合生成动态信息,最终通过标准问题回答模块和上下文视觉信息和语言信息一起完成问题回答。