CVPRNov, 2016

通过多模态对话进行视觉对象发现 ——GuessWhat?!

TL;DR我们介绍了 GuessWhat?!,一种两个玩家的猜谜游戏,用于研究计算机视觉和对话系统的相互作用。我们收集了一个由 150K 个人类游戏、66K 张图像和总共 800K 个视觉问答对组成的大规模数据集。我们还使用深度学习模型建立了最初的基线。