CVPRDec, 2022

利用预训练的视觉 - 语言模型进行视频识别的双向跨模态知识探索

TL;DR本文介绍了一个名叫 BIKE 的,通过使用视频和文本之间的跨模态桥梁,通过视频设置自动补充的文字辅助属性,和通过文本确定带有时间明显性的位置,以增强视频表示,从而有效提高各种识别情景下的视频识别性能的创新框架。 在六个流行的视频数据集中进行的广泛研究表明,我们的方法在各种识别方案中均实现了最先进的性能。