Jul, 2023

利用 ConViT 进行静态图像中的人类动作识别

TL;DR通过引入 Vision Transformer(ViT)作为卷积层,本文提出了一种新的模块,用于在图像中提取各个区域之间的关系,并将其应用于动作识别模型,实现了在 Stanford40 和 PASCAL VOC 2012 行为数据集上达到了分别达到了 95.5% mAP 和 91.5% mAP 的结果,可与其他最先进的方法相媲美。