BriefGPT.xyz
大模型
Ask
alpha
关键词
video-text transformers
搜索结果 - 1
CVPR
SViTT: 稀疏视频文本 Transformer 的时间学习
通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理,优于朴素变压器基线,并对多个视频文本检索和问答基准进行了训练,以及在更长的片段长度下是针对模型稀疏性(sparsity)进行了培训。
PDF
a year ago
Prev
Next