ECCVAug, 2022

迭代视频 - 文本共同标记的视频问答

TL;DR本文提出了一种新型的多流视频编码器,使用多个视频输入和新的视频文本迭代共同标记方法来回答与视频相关的各种问题,同时将所需的 GFLOPs 从 150-360 减少到只有 67,实现了高效的视频问答模型,并在 MSRVTT-QA,MSVD-QA,IVQA 等多个数据集上实验评估,优于以往的最先进技术。