CVPRJun, 2018

学习视觉知识记忆网络用于视觉问答

TL;DR本文提出了一种基于 VKMN 的视觉知识存储网络,通过 End-to-End 的学习框架将结构化人类知识和深度视觉特征融入到记忆网络中来对抗视觉问答中缺乏对结构化知识的利用的问题,并在 VQA 1.0 和 VQA 2.0 基准测试中表现出显著的性能优势,特别是在涉及知识推理的问题方面。