Oct, 2016

开放式视觉问答

TL;DR研究使用深度学习框架解决视觉问答任务的方法,探索 LSTM 网络和 VGG-16、K-CNN 卷积神经网络提取图像特征,将其与问题的词嵌入或句子嵌入相结合进行答案预测。在 Visual Question Answering Challenge 2016 中获得了 53.62%的准确率。