NIPSOct, 2014

基于不确定输入的实景问答的多世界方法

TL;DR本文提出了一种自动回答关于图像的问题的方法,该方法结合了自然语言处理和计算机视觉的最新进展,采用多世界方法将离散推理与不确定预测结合起来,并在贝叶斯框架下表示对感知世界的不确定性。该方法能够处理有关现实场景的高难度的人类问题,并以计数、物体类别、实例和它们的列表等答案的范围进行回复。该系统直接从问题 - 答案对中进行训练。我们建立了该任务的第一个基准,可视为现代视觉图灵测试的一种尝试。