ECCVAug, 2022

扩展语言图像预训练模型以实现通用视频识别

TL;DR本文提出一种简单有效的方法,将预先训练好的语言 - 图像模型直接应用于视频识别中,使用跨帧注意力机制及视频特定提示方案,实现对长时序列的检测,提高了零样本下的准确率。