ECCVAug, 2022
扩展语言图像预训练模型以实现通用视频识别
Expanding Language-Image Pretrained Models for General Video Recognition
Bolin Ni, Houwen Peng, Minghao Chen, Songyang Zhang, Gaofeng Meng...
TL;DR本文提出一种简单有效的方法,将预先训练好的语言 - 图像模型直接应用于视频识别中,使用跨帧注意力机制及视频特定提示方案,实现对长时序列的检测,提高了零样本下的准确率。