Sep, 2016

图形化结构表示用于视觉问题回答

TL;DR本文提出通过建立基于场景信号和问题信息的图结构,应用深度神经网络分析问题的方法来提升视觉问答(VQA)的性能,相比于基于CNN/LSTM的VQA方法,本方法获得了显著的改善,其准确性从71.2%提高到74.4%,在不同的“平衡”场景中的准确性则提高了4.4%。