May, 2015

视觉 Madlibs: 填空图像生成和问答

TL;DR本文介绍了一个包含 360,001 个自然语言描述的新数据集,名为 “Visual Madlibs dataset”,该数据集是通过自动产生的填空模板收集关于人和物体、外貌、活动和互动以及整体场景推理的有针对性的描述。本文提供了有关该数据集的多个分析,展示了它在生成有针对性的描述和对图像进行多选题目、回答方面的应用,采用联合嵌入和深度学习方法进行实验的结果表现良好。