Transferring knowledge from task-agnostic pre-trained deep models for
downstream tasks is an important topic in computer vision research. Along with
the growth of computational capacity, we now have open-source vision-language
pre-trained models in large scales of the model architectur
本文介绍了一个名叫 BIKE 的,通过使用视频和文本之间的跨模态桥梁,通过视频设置自动补充的文字辅助属性,和通过文本确定带有时间明显性的位置,以增强视频表示,从而有效提高各种识别情景下的视频识别性能的创新框架。 在六个流行的视频数据集中进行的广泛研究表明,我们的方法在各种识别方案中均实现了最先进的性能。