Jul, 2020

多模态洗牌变换器的视频对话动态图表示学习

TL;DR本研究介绍了一种语义控制的多模态Shuffled Transformer推理框架,它包括一系列Transformer模块,用于解决AVSD任务中的多模态学习和推理,并提出了一种新型的动态场景图表示学习方法。实验结果表明,该模型在所有度量标准上均取得了最先进的性能。