AAAIFeb, 2022

视频问答的 2.5+1 维时空场景图

TL;DR本文提出了一种基于 (2.5+1) D 场景图表示的视频问答方法,将视频帧转成伪 - 3D 视图并保持语义,然后基于此表示应用 transformer 模型进行推理,实验证明,该方法在视频问答任务中具有优异的性能。