AAAIAug, 2019

基于反应式多阶段特征融合的多模态对话建模

TL;DR本文提出了一种直观的机制,通过多个阶段融合特征和注意力以很好地集成多模式特征,以解决音频视觉场景感知对话任务,并进一步分析了各种最先进的模型在该任务上的泛化能力。