AAAIJul, 2020

多模态洗牌变换器的视频对话动态图表示学习

TL;DR本研究介绍了一种语义控制的多模态 Shuffled Transformer 推理框架,它包括一系列 Transformer 模块,用于解决 AVSD 任务中的多模态学习和推理,并提出了一种新型的动态场景图表示学习方法。实验结果表明,该模型在所有度量标准上均取得了最先进的性能。