Feb, 2019

利用场景图和视觉注意力为视觉问答生成自然语言解释

TL;DR本文介绍了一种新的方法来生成自然语言的解释,解释视觉问答(VQA)问题的答案,其包含图像中支持答案的证据,使用了场景图中的实体注释和 VQA 模型生成的关注图来证明。在 Visual Genome(VG)数据集上运行算法,并进行内部用户研究,证明了我们的方法的有效性。