AAAISep, 2021

视频问答的时域金字塔变换器和多模态交互

TL;DR本文提出了一种基于时域金字塔变换器的多模交互模型,用于视频问答,实现了问题语义的建立和视频信息的推断,并在三个视频问答数据集上通过了广泛的实验证明了该方法相较于现有技术的卓越表现。