BriefGPT.xyz
Ask
alpha
关键词
pure-transformer based models
搜索结果 - 1
ICCV
ViViT: 一种视频视觉 Transformer
本研究提出一种基于纯 Transformer 模型的视频分类方法,采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记,并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列,我们提出了一些高效的模型变体,可分
→
PDF
3 years ago
Prev
Next