AAAIAug, 2019

基于熵增强的多模态注意力模型用于场景感知对话生成

TL;DR本研究提出了熵增强动态内存网络 (DMN) 以有效地对视频模态建模,并应用基于注意力的 GRU 来提高模型理解和记忆序列信息的能力,从而生成对于视频问答问题精确的回答。在官方评估中,我们的系统在主观和客观评估指标上均能实现比已发布的基准模型更好的性能。