Jan, 2020
面向场景感知对话系统的多步骤多模态注意力网络
Multi-step Joint-Modality Attention Network for Scene-Aware Dialogue
System
TL;DR本文提出了一种基于循环神经网络的多步关注机制的多模态联合注意网络(JMAN),用于对视频进行推理,该模型在每个推理过程中联合考虑了视觉和文本表示,以更好地集成两种不同模态的信息。与AVSD组织发布的基线相比,我们的模型在ROUGE-L得分和CIDEr得分上相对提高了12.1%和22.4%。