BriefGPT.xyz
Sep, 2016
图形化结构表示用于视觉问题回答
Graph-Structured Representations for Visual Question Answering
HTML
PDF
Damien Teney, Lingqiao Liu, Anton van den Hengel
TL;DR
本文提出通过建立基于场景信号和问题信息的图结构,应用深度神经网络分析问题的方法来提升视觉问答(VQA)的性能,相比于基于CNN/LSTM的VQA方法,本方法获得了显著的改善,其准确性从71.2%提高到74.4%,在不同的“平衡”场景中的准确性则提高了4.4%。
Abstract
This paper proposes to improve
visual question answering
(
vqa
) with structured representations of both scene contents and questions. A key challenge in
→