ECCVAug, 2022

冻结的 CLIP 模型是高效的视频学习者

TL;DR本文提出 Efficient Video Learning (EVL) 框架,使用轻量级 Transformer 解码器和学习查询标记以从 CLIP 图像编码器中动态收集帧级空间特征,进一步采用每个解码器层中的局部时间模块来发现相邻帧及其注意力映射中的时间线索。尽管使用了以前的预训练图像模型,本研究表明 EVL 模型在各种视频识别数据集上都学习了高质量的视频表示方法。