AAAIJan, 2020

面向场景感知对话系统的多步骤多模态注意力网络

TL;DR本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络(JMAN),用于对视频进行推理,该模型在每个推理过程中联合考虑了视觉和文本表示,以更好地集成两种不同模态的信息。与 AVSD 组织发布的基线相比,我们的模型在 ROUGE-L 得分和 CIDEr 得分上相对提高了 12.1%和 22.4%。