Nov, 2018

视觉问答作为阅读理解

TL;DR本研究提出了一种基于机器阅读理解的方法,通过将视觉和文本特征统一到自然语言中以解决视觉问答中的多模态特征融合问题,并能够处理大规模外部知识库等基于知识的问题。实验结果表明,该方法在三个数据集上性能具有可比性,此为利用文本和自然语言处理技术解决视觉问答问题的一步。