May, 2017

通过图像文本转换实现更好文本理解

TL;DR本文探讨了将视觉信息与文本表示相结合的模型,通过 comprehensive ablation studies,我们提出了一种简单但表现突出的架构,相对于其他的 multimodal approaches,在若干基准测试中取得了更好的成绩。同时在使用数量级更少的数据时,也改进了与图像相关的文本数据集的最新成果。