Oct, 2023

ConViViT — 一种结合卷积和分解注意力的深度神经网络用于人体活动识别

TL;DR提出了一种融合了 Transformer 架构和 CNN 网络的新型混合架构,用于通过 RGB 视频进行活动识别,该架构通过使用 CNN 网络增强视频表示,然后将其传递给 Transformer 来提取时空标记,从而实现了新的 SOTA 结果。