CVPROct, 2017

iVQA: 反向视觉问答

TL;DR本文提出了逆向视觉问答(iVQA)问题,并探讨其作为视觉语言理解基准的适用性。我们提出了一种 iVQA 模型,可以逐渐调整其注意力焦点,以便更好地理解给定的图像。实验结果表明,我们的模型可以生成多样性、语法正确且内容相关的问题,与给定的答案相匹配。