Sep, 2016

图形化结构表示用于视觉问题回答

TL;DR本文提出通过建立基于场景信号和问题信息的图结构,应用深度神经网络分析问题的方法来提升视觉问答(VQA)的性能,相比于基于 CNN/LSTM 的 VQA 方法,本方法获得了显著的改善,其准确性从 71.2%提高到 74.4%,在不同的 “平衡” 场景中的准确性则提高了 4.4%。