CVPRNov, 2016
通过多模态对话进行视觉对象发现 ——GuessWhat?!
GuessWhat?! Visual object discovery through multi-modal dialogue
Harm de Vries, Florian Strub, Sarath Chandar, Olivier Pietquin, Hugo Larochelle...
TL;DR我们介绍了 GuessWhat?!,一种两个玩家的猜谜游戏,用于研究计算机视觉和对话系统的相互作用。我们收集了一个由 150K 个人类游戏、66K 张图像和总共 800K 个视觉问答对组成的大规模数据集。我们还使用深度学习模型建立了最初的基线。