BriefGPT.xyz
大模型
Ask
alpha
关键词
multi-stream video encoder
搜索结果 - 1
ECCV
迭代视频 - 文本共同标记的视频问答
本文提出了一种新型的多流视频编码器,使用多个视频输入和新的视频文本迭代共同标记方法来回答与视频相关的各种问题,同时将所需的 GFLOPs 从 150-360 减少到只有 67,实现了高效的视频问答模型,并在 MSRVTT-QA,MSVD-Q
→
PDF
2 years ago
Prev
Next