BriefGPT.xyz
Ask
alpha
关键词
transformer-based video question answering
搜索结果 - 1
一个高效的基于 Transformer 的视频问答方法:视频是否能够取代 $n imes n$ 张图像?
本文提出了一种高效的基于现有的视觉 - 语言预训练模型的视频问答方法,该方法将视频帧连接成 $n imes n$ 的矩阵,从而将图像编码器的使用量从 $n^2$ 减少到 1,保持了原始视频的时间结构。实验结果表明,我们的方法在 MSRVTT
→
PDF
a year ago
Prev
Next