CVPRJun, 2018

视觉问答中的聚焦视觉 - 文本注意力

TL;DR本文介绍了一种名为 FVTA 的新型神经网络,它利用一种分层的动态过程来确定要解答问题时需要关注的媒体和时间,可以回答问题并提供系统答案的理由。FVTA 在 MemexQA 数据集上达到了最先进的性能,MovieQA 数据集上获得了有竞争力的结果。