May, 2023

一个高效的基于 Transformer 的视频问答方法:视频是否能够取代 $n imes n$ 张图像?

TL;DR本文提出了一种高效的基于现有的视觉 - 语言预训练模型的视频问答方法,该方法将视频帧连接成 $n imes n$ 的矩阵,从而将图像编码器的使用量从 $n^2$ 减少到 1,保持了原始视频的时间结构。实验结果表明,我们的方法在 MSRVTT 和 TrafficQA 数据集上取得了与当前最佳方法相同甚至更好的性能,速度快近 4 倍,使用的内存仅占现有方法的 30%,能够节省计算资源。