AAAIFeb, 2023

具有金字塔式多模态变换器的高效端到端视频问答

TL;DR本文提出了一种新的端到端视频问答方法,使用金字塔多模态变换器(PMT)模型实现视频语言交互,通过使用异性金字塔在不同的时空尺度上实现跨视频语言交互,并在保持本地和全局语义完整性的同时,将视频特征流分解为空间和时间子流,并实现它们与语义的交互,并结合可重用的预训练权重的特征提取器,在 5 个视频问答基准测试中实现更好或同等的性能。