Apr, 2019

异构内存增强的多模态注意力模型用于视频问答

TL;DR本文提出了一种新的端到端可训练的视频问答(VideoQA)框架,包含三个主要组成部分:新的异构内存、重设计的问题内存和新的多模式融合层,其通过自我更新的注意力实现多步推理并关注相关的视觉和文本线索来推断正确答案,实验结果表明该方法在四个 VideoQA 基准数据集上实现了最先进的性能。