BriefGPT.xyz
Ask
alpha
关键词
spatiotemporal tokens
搜索结果 - 1
ConViViT — 一种结合卷积和分解注意力的深度神经网络用于人体活动识别
提出了一种融合了 Transformer 架构和 CNN 网络的新型混合架构,用于通过 RGB 视频进行活动识别,该架构通过使用 CNN 网络增强视频表示,然后将其传递给 Transformer 来提取时空标记,从而实现了新的 SOTA 结
→
PDF
8 months ago
Prev
Next